데이터과학/자연어처리 22

[자연어처리] [paper review] Word2vec: Distributed Representations of Words and Phrases and their Compositionality

본 논문은 이전에 리뷰한 Word2vec와 같은 해에 발표된 후속 논문으로, Skip-gram 방법론의 representation quality와 computation efficiency 개선을 목표로 하고 있습니다. 먼저 Word2Vec에 대한 설명은 아래 포스팅을 참고 부탁드립니다. [논문리뷰]Efficient Estimation of Word Representations in Vector Space : Word2Vec 기존의 count based word representaion 방법들은 간단하지만, 단어 간의 유사도를 판단할 수 없습니다. 예를 들면, 삼겹살 [0,0,0,0,0,1] , 목살 [0,0,0,1,0,0] , 연필 [0,1,0,0,0,0] 세 개의 임베딩 된 단어가.. supkoon.t..

[자연어처리][paper review] Word2Vec: Efficient Estimation of Word Representations in Vector Space

Count-based word representation One-hot encoding으로 대표되는 count-based word representaion은 단어를 vocabulary의 index로 표현하는 방법입니다. count-based word representaion은 간단하지만 명확한 한계점들이 존재합니다. 첫번째로, 단어 간의 유사도를 판단할 수 없습니다. 예를 들어 삼겹살 [0,0,0,0,0,1] , 목살 [0,0,0,1,0,0] , 연필 [0,1,0,0,0,0] 세 개의 임베딩 된 단어를 고려해 보면, 다음과 같이 단어간의 의미와 유사도를 전혀 반영하지 못한다는 사실을 알 수 있습니다. $$(W^{삼겹살})^T W^{목살} = 0$$ $$(W^{삼겹살})^T W^{연필} = 0 $$ $$(..