RISING FASTBALL

[자연어처리][paper review] GloVe: Global Vectors for Word Representation

tf-idf, word2vec와 같은 Sementic vector space 모델들은 실수 벡터로서 각각의 단어를 표현합니다. $V^{류현진} = [0.98,1.0,0.01,1,....,1]$ $V^{김태균} = [0.01,0.95,1,0.1,....,0.5]$ 그리고 이러한 vector representation은 information retrieval, document classification, QA 등 다양한 task에 입력으로서 활용됩니다. 다양한 vector representation 품질을 평가하기 위하여 기존에는 단순 scalar 비교 관점인 단어간의 distance,angle 을 활용하였습니다. 하지만, Word2vec의 등장 이후에는 아래 예시와 같이 word pair의 anal..

데이터과학/자연어처리 2021.06.24

[자연어처리] [paper review] Word2vec: Distributed Representations of Words and Phrases and their Compositionality

본 논문은 이전에 리뷰한 Word2vec와 같은 해에 발표된 후속 논문으로, Skip-gram 방법론의 representation quality와 computation efficiency 개선을 목표로 하고 있습니다. 먼저 Word2Vec에 대한 설명은 아래 포스팅을 참고 부탁드립니다. [논문리뷰]Efficient Estimation of Word Representations in Vector Space : Word2Vec 기존의 count based word representaion 방법들은 간단하지만, 단어 간의 유사도를 판단할 수 없습니다. 예를 들면, 삼겹살 [0,0,0,0,0,1] , 목살 [0,0,0,1,0,0] , 연필 [0,1,0,0,0,0] 세 개의 임베딩 된 단어가.. supkoon.t..

데이터과학/자연어처리 2021.06.22

[자연어처리][paper review] Word2Vec: Efficient Estimation of Word Representations in Vector Space

Count-based word representation One-hot encoding으로 대표되는 count-based word representaion은 단어를 vocabulary의 index로 표현하는 방법입니다. count-based word representaion은 간단하지만 명확한 한계점들이 존재합니다. 첫번째로, 단어 간의 유사도를 판단할 수 없습니다. 예를 들어 삼겹살 [0,0,0,0,0,1] , 목살 [0,0,0,1,0,0] , 연필 [0,1,0,0,0,0] 세 개의 임베딩 된 단어를 고려해 보면, 다음과 같이 단어간의 의미와 유사도를 전혀 반영하지 못한다는 사실을 알 수 있습니다. $(W^{삼겹살})^T W^{목살} = 0$ $(W^{삼겹살})^T W^{연필} = 0$ $$(..

데이터과학/자연어처리 2021.06.17

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

RISING FASTBALL

전체 글 28

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역