데이터과학/자연어처리 22

[자연어처리][paper review] GPT-1 : Improving Language Understanding by Generative Pre-Training

많은 딥러닝 모델들은 지도학습 형태로 이루어져 있으며, 일반화를 위한 상당한 양의 labeled data를 필요로 합니다. 따라서 labeled data의 부족은 지도학습 기반 딥러닝 모델의 적용을 어렵게 하는 요인 중 하나입니다. 이러한 경우 추가적인 annotation을 통해 더 많은 labeled data를 확보하는 것은 가장 일반적인 해결방안이 될 수 있습니다. 하지만, 수작업이 대부분인 annotation 작업은 경우에 따라 상당한 노동력과 자본이 따르게 됩니다. 또한 같은 문제상황이 여러가지 task에서 반복될 경우 경제적 손실은 계속해서 쌓여갈 것 입니다. 따라서 이러한 경우, unlabeled data로 부터 직접 정보를 추출할 수 있는 준지도(semi-supervised), 비지도(uns..

[자연어처리][paper review] ELMo : Deep contextualized word representations

신경망 기반의 언어모델에서 양질의 Pre-trained word representation을 사용하는 것은 매우 중요합니다. 잘 학습된 word representation을 사용하는 것은 Down-stream task를 해결하기 위한 key-point로서, 모델의 성능을 끌어 올려줄 수 있는 가장 확실한 방법이기 때문입니다. 하지만, 언어를 벡터로 표현하는 것은 자연어처리 역사의 시작부터 지금까지 두고 두고 남아있는 과제입니다. 언어는 우리의 생각보다도 너무 큰 복잡도를 가지고 있습니다. syntactic, sementic한 특성들은 매우 복잡하게 얽혀 있으며, 언어의 종류에 따라서도 확연하게 달라집니다. 따라서 문법과 같은 복잡한 언어구조를 이해하는 동시에 문맥을 고려한 word representati..

[자연어처리][paper review] Transformer : Attention is all you need

본 논문은 2017년 발표된 논문으로, 당시에는 RNN, LSTM, GRU를 사용한 복잡한 모델들이 Machine translation과 같은 Sequence Modeling 분야에서 주를 이루고 있었습니다. 이러한 방법들은 순환 신경망을 활용한 인코더-디코더 구조를 통해 가변길이의 입, 출력 또한 다룰 수 있다는 큰 장점이 존재했습니다. encoder-decoder 구조는 \((x_1,...,x_T)\rightarrow v \rightarrow(y_1,...,y_T)\)의 순서로 encoder를 통하여 input sequence를 고정된 길이의 벡터로 바꾸고, 다시 decoder를 통하여 고정된 길이의 벡터를 translation 결과로 output하는 구조입니다. [paper review] Seq2S..

[자연어처리][paper review] Attention : Effective Approaches to Attention-based Neural Machine Translation

본 논문은 2015년 발표된 논문으로, Machine translation 분야에서 Bahdanau Attention을 활용한 NMT(Neural machine translation) 모델의 성공에도 불구하고, attention을 더 효율적으로 활용할 수 있는 NMT 모델에 대한 연구가 부족함을 지적하며 시작합니다. 1.Neural Machine translation Machine translation은 가변적인 input sequence에 대하여 output sequence로 translation 하는 고수준의 nlp task 중 하나입니다. 확률적인 관점에서 설명드리면, input sentence \(x=(x_1,...,x_n)\)와 output sequence \(y=(y_1,...,y_m)\)에 ..

[자연어처리][paper review] Attention : Neural machine translation by jointly learning to align and translate

본 논문은 2014년 발표된 논문으로 당시 Seq2Seq Machine translation은 RNN,LSTM,GRU 기반의 encoder-decoder 구조가 주를 이루고 있었습니다. encoder-decoder 구조는 \((x_1,...,x_T)\rightarrow v \rightarrow(y_1,...,y_T)\)의 순서로 encoder를 통하여 input sequence를 고정된 길이의 벡터로 바꾸고, 다시 decoder를 통하여 고정된 길이의 벡터를 translation 결과로 output하는 구조입니다. 무엇보다 장점은 가변 길이의 input과 output에 적용 가능하다는 것 입니다. 하지만 이러한 장점에도 고정된 길이의 벡터 \(v\)를 사용하는 부분은 모델의 bottleneck이 됩니다...