'데이터과학/자연어처리' 카테고리의 글 목록 (5 Page)

[자연어처리][paper review] Word2Vec: Efficient Estimation of Word Representations in Vector Space

Count-based word representation One-hot encoding으로 대표되는 count-based word representaion은 단어를 vocabulary의 index로 표현하는 방법입니다. count-based word representaion은 간단하지만 명확한 한계점들이 존재합니다. 첫번째로, 단어 간의 유사도를 판단할 수 없습니다. 예를 들어 삼겹살 [0,0,0,0,0,1] , 목살 [0,0,0,1,0,0] , 연필 [0,1,0,0,0,0] 세 개의 임베딩 된 단어를 고려해 보면, 다음과 같이 단어간의 의미와 유사도를 전혀 반영하지 못한다는 사실을 알 수 있습니다. $$(W^{삼겹살})^T W^{목살} = 0$$ $$(W^{삼겹살})^T W^{연필} = 0 $$ $$(..

데이터과학/자연어처리 2021.06.17

RISING FASTBALL

데이터과학/자연어처리 22

티스토리툴바