전체 글 28

[자연어처리][paper review] GloVe: Global Vectors for Word Representation

tf-idf, word2vec와 같은 Sementic vector space 모델들은 실수 벡터로서 각각의 단어를 표현합니다. $$V^{류현진} = [0.98,1.0,0.01,1,....,1]$$ $$V^{김태균} = [0.01,0.95,1,0.1,....,0.5]$$ 그리고 이러한 vector representation은 information retrieval, document classification, QA 등 다양한 task에 입력으로서 활용됩니다. 다양한 vector representation 품질을 평가하기 위하여 기존에는 단순 scalar 비교 관점인 단어간의 distance,angle 을 활용하였습니다. 하지만, Word2vec의 등장 이후에는 아래 예시와 같이 word pair의 anal..

[자연어처리] [paper review] Word2vec: Distributed Representations of Words and Phrases and their Compositionality

본 논문은 이전에 리뷰한 Word2vec와 같은 해에 발표된 후속 논문으로, Skip-gram 방법론의 representation quality와 computation efficiency 개선을 목표로 하고 있습니다. 먼저 Word2Vec에 대한 설명은 아래 포스팅을 참고 부탁드립니다. [논문리뷰]Efficient Estimation of Word Representations in Vector Space : Word2Vec 기존의 count based word representaion 방법들은 간단하지만, 단어 간의 유사도를 판단할 수 없습니다. 예를 들면, 삼겹살 [0,0,0,0,0,1] , 목살 [0,0,0,1,0,0] , 연필 [0,1,0,0,0,0] 세 개의 임베딩 된 단어가.. supkoon.t..

[자연어처리][paper review] Word2Vec: Efficient Estimation of Word Representations in Vector Space

Count-based word representation One-hot encoding으로 대표되는 count-based word representaion은 단어를 vocabulary의 index로 표현하는 방법입니다. count-based word representaion은 간단하지만 명확한 한계점들이 존재합니다. 첫번째로, 단어 간의 유사도를 판단할 수 없습니다. 예를 들어 삼겹살 [0,0,0,0,0,1] , 목살 [0,0,0,1,0,0] , 연필 [0,1,0,0,0,0] 세 개의 임베딩 된 단어를 고려해 보면, 다음과 같이 단어간의 의미와 유사도를 전혀 반영하지 못한다는 사실을 알 수 있습니다. $$(W^{삼겹살})^T W^{목살} = 0$$ $$(W^{삼겹살})^T W^{연필} = 0 $$ $$(..