BERT(Bidirectional Encoder Representations from Transformer)는 이름 그대로 Transformer의 Encoder를 활용한 Language model 입니다. BERT는 ELMo, GPT-1과 비슷한 시기 발표된 논문으로, 동일하게 양질의 pre-trained language representation를 얻는 것 과 down-stream task로의 손쉬운 fine-tuning에 중점을 두고 있습니다. pre-trained language representation을 down-stream task에 적용하기 위한 방법은 크게 두가지가 존재합니다. 1)feature-based approach feature-based approach는 기존의 input에 pre..