ROUGE ROUGE(Recall-Oriented Understudy for Gisting Evaluation)는 text summarization, machine translation과 같은 generation task를 평가하기 위해 사용되는 대표적인 Metric입니다. 본 글의 내용은 ROUGE score에 관한 논문인 https://aclanthology.org/W04-1013/를 참고하여 작성되었습니다. Machine translation에서 주로 사용하는 BLEU가 n-gram Precision에 기반한 지표라면, ROUGE는 이름 그대로 n-gram Recall에 기반하여 계산됩니다. 우선 N-gram에 대한 ROUGE-N은 다음과 같습니다. $$ROUGE-N = {{\sum_{S\in \{..