데이터과학 28

[자연어처리][paper review] Convolutional Neural Networks for Sentence Classification

CNN CNN은 컴퓨터 비전 분야를 위해 개발되었으며, 대중적으로 사용되고 있는 가장 보편화된 이미지 처리 알고리즘입니다. CNN은 가중치를 갖는 필터를 사용하기 때문에 개별 픽셀에 대한 가중치를 고려하지 않아도 됩니다. 따라서 CNN을 사용하는 모델은 파라미터를 효율적으로 사용하여 매우 큰 차원의 이미지를 처리할 수 있습니다. CNN in NLP CNN은 자연어 처리를 위해서도 효과적으로 사용되고 있습니다. 실제로 전통적인 일부 자연어처리 Task의 경우, CNN이 훌륭한 성능을 보인 사례들이 존재합니다. Sentence(Text,Document) Classifiction은 자연어처리의 가장 주된 Task 중 하나입니다. 2014년 발표된 본 논문은 CNN을 사용한 Sentence Classificat..

[추천시스템][paper review][구현] AutoRec : Auto-encoders Meet Collaborative Filtering

2015년에 발표된 본 논문은 Auto Encoder를 활용하여 협업필터링을 진행하는 모델인 AutoRec에 대하여 소개하고 있습니다. Collaborative filtering 컨텐츠 기반(content-based) 방법과 더불어 추천시스템의 한가지 큰 줄기인 협업 필터링(Collaborative Filtering)은 컨텐츠 기반 필터링처럼 유저, 아이템의 profile을 따로 만들 필요 없이, 평점과 방문기록 등의 과거 상호관계(interaction)에 기반하여 추천을 제공합니다. 예를들어 협업필터링은 "유저 A와 B가 아이템 1에 대하여 비슷한 평가를 내렸다면, 유저 A가 선호하는 다른 아이템인 2에 대해서도 유저 B가 비슷한 선호도를 가지고 있지 않을까?" 라는 생각과 같습니다. 일반적인 협업필터..

[추천시스템][paper review][구현] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

본 논문은 2017년 발표된 논문으로 앞서 리뷰하였던 Factorization Machines을 신경망으로 확장한 DeepFM 모델을 제안하고 있습니다. DeepFM은 추천시스템에서 중요시되는 CTR 예측을 위한 모델로서, 기존의 모델들의 장점들을 잘 취합한 모델이라고 할 수 있습니다. CTR(Click-through rate) in Recommender system CTR(Click-through rate)이란 추천된 아이템을 유저가 클릭할 확률을 의미합니다. 추천시스템에 있어 CTR(Click-through rate)의 예측은 매우 중요한 요소 중 하나입니다. 대부분의 추천시스템은 CTR의 최대화를 목표로 하고 있습니다. CTR의 예측을 위해서는 클릭 이전에 숨겨진 사용자의 Implicit featu..

[추천시스템][paper review][구현] Wide & Deep Learning for Recommender Systems

Wide & deep은 2016년 구글이 발표한 논문으로, Memorization과 Generalization을 동시에 잘 수행할 수 있는 추천시스템 모델을 소개하고 있습니다. Wide & deep은 구글 플레이스토어의 추천시스템에 활용되어 매우 효율적이며 효과적인 성능을 보여준 시스템입니다. Memorization, Generalization 우선, 본 논문에서 중점적으로 여기고 있는 Memorization과 Generalization의 정의에 대해 설명드리도록 하겠습니다. 1) Memorization 일반적인 regression은 종종 One-hot vector를 사용하여 학습합니다. 예를 들어 One-hot 상황에서 (User == 정구섭)를 표현하는 Binary feature는 User가 "정구섭..

[추천시스템][paper review][구현] Factorization Machines

머신러닝과 데이터 마이닝에서 SVM은 가장 대중적으로 사용되는 예측기 중 하나입니다. SVM은 General Predictor로서 데이터의 형태에 크게 규제받지 않고 분류, 회귀 등 다양한 작업을 수행할 수 있다는 장점이 존재합니다. 추천시스템은 대부분의 경우 User x Item으로 구성된 평점 행렬(rating matrix)을 채워나가는 Matrix Completion과 같습니다. 하지만 모든 유저가 모든 아이템을 평가하지 않는 이상 Sparse한 환경이 자주 발생하게 됩니다. 아쉽게도 추천시스템에 있어서 SVM은 대부분의 경우 좋은 선택이 되지 못합니다. 매우 Sparse한 환경에서는 복잡한 커널트릭이 잘 작동하지 않기 때문입니다. 2010년부터 현재까지, 추천시스템을 대표하는 알고리즘 중 하나는 ..