데이터과학/자연어처리 22

[자연어처리][paper review] Convolutional Neural Networks for Sentence Classification

CNN CNN은 컴퓨터 비전 분야를 위해 개발되었으며, 대중적으로 사용되고 있는 가장 보편화된 이미지 처리 알고리즘입니다. CNN은 가중치를 갖는 필터를 사용하기 때문에 개별 픽셀에 대한 가중치를 고려하지 않아도 됩니다. 따라서 CNN을 사용하는 모델은 파라미터를 효율적으로 사용하여 매우 큰 차원의 이미지를 처리할 수 있습니다. CNN in NLP CNN은 자연어 처리를 위해서도 효과적으로 사용되고 있습니다. 실제로 전통적인 일부 자연어처리 Task의 경우, CNN이 훌륭한 성능을 보인 사례들이 존재합니다. Sentence(Text,Document) Classifiction은 자연어처리의 가장 주된 Task 중 하나입니다. 2014년 발표된 본 논문은 CNN을 사용한 Sentence Classificat..

[자연어처리][paper review] GPT-3 : Language Models are Few-Shot Learners

Attention Mechanism과 Transformer의 등장, 그리고 대용량 corpus에서의 pre-training과 task-specific Fine-tuning으로 학습하는 언어모델은 근래에 대부분의 NLP task 성능을 몰라보게 끌어올렸습니다. 이러한 모델들을 대부분의 테스크에 잘 작동하는 task-agnostic 모델이라고 표현합니다. 그렇다면 task-agnostic한 Pretrained language model은 만능일까요? 역시 아직은 해결해야 할 한계점이 존재합니다. 바로, Fine-tuning 과정에서 아직은 적게는 수천, 많게는 수만의 labeled supervision dataset을 필요로 한다는 것 입니다. 이러한 한계점의 해결은 다음의 세가지 관점에서 매우 중요합니다...

[자연어처리][Metric] ROUGE score : Recall-Oriented Understudy for Gisting Evaluation

ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https://aclanthology.org/W04-1013/를 참고하여 작성되었습니다. Machine translation에서 주로 사용하는 BLEU가 n-gram Precision에 기반한 지표라면, ROUGE는 이름 그대로 n-gram Recall에 기반하여 계산됩니다. 우선 N-gram에 대한 ROUGE-N은 다음과 같습니다. $$ROUGE-N = {{\sum_{S\in \{..

[자연어처리][paper review] GPT-2 : Language Models are Unsupervised Multitask Learners

머신러닝 시스템은 Task에 특화된 대규모의 데이터셋과 대용량의 모델, 그리고 지도학습을 통해 빠르게 발전해왔습니다. 머신러닝 시스템을 개발하기 위한 가장 일반적인 방법은 다음과 같습니다. 1. 의도하는 Task에 맞는 데이터를 수집. 2. 수집한 데이터를 통해 Task를 모방할 수 있는 모델을 학습. 3. IID(independent and identically distributed) hold-out set을 통해 검증. 위와 같이 가장 보편화된 절차는 특정 Domain과 Task의 전문가와 같은 훌륭한 Expert Model을 만들 수 있게 합니다. 그러나 저자들은 이러한 모델이 Narrow Expert 로서 데이터 분포의 변화 혹은 Task의 변화에 매우 취약하다고 주장합니다. Domain과 Tas..

[자연어처리][paper review] BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT(Bidirectional Encoder Representations from Transformer)는 이름 그대로 Transformer의 Encoder를 활용한 Language model 입니다. BERT는 ELMo, GPT-1과 비슷한 시기 발표된 논문으로, 동일하게 양질의 pre-trained language representation를 얻는 것 과 down-stream task로의 손쉬운 fine-tuning에 중점을 두고 있습니다. pre-trained language representation을 down-stream task에 적용하기 위한 방법은 크게 두가지가 존재합니다. 1)feature-based approach feature-based approach는 기존의 input에 pre..