대형 언어 모델의 생성 텍스트는 환각 현상 때문에 신뢰성 및 안정성 문제가 있다. 질의응답에서의 환각을 판별하기 위해 생성 텍스트 환각을 총 5가지로 분류하는 방식을 제안하고 BLEU, METEOR 그리고 ROUGE 등 기존 자연어 처리 성능 척도가 이를 잘 판별하는지 실험하였다. 실험 결과, 각각이 잘 판별하지 못하는 유형이 명확히 존재하였다. 이를 통하여, 본 논문에서 정의한 5가지 유형의 환각 판별을 잘하는 새로운 척도의 필요성과 그 설계 방법을 시사한다.