텍스트 요약도메인마다 요약하는 방식에 차이가 있음 -> 언어모델이 이를 파악하기에는 어려움이 있음정교한 수준의 도메인 일반화가 필요함seq-to-seq 방식임(입력 : 줄글 텍스트 -> 출력 : 요약 텍스트) CNN/DailyMail 데이터셋CNN/DailyMail 데이터셋 (https://huggingface.co/datasets/ccdv/cnn_dailymail)300000개의 뉴스기사, 요약 쌍요약이 본문에서 추출된것이 아니고 머리글 형식으로 새로운 문장으로 요약을 구성article(본문), highlisgts(요약), id(기사 고유id) 트랜스포머 모델의 토큰 갯수 제약트랜스 포머 모델의 최대 토큰이 대략 1000개 임토큰 1000개를 넘는 긴 기사의 경우 절단이 불가피, 끝에 중요 내용 손실 ..