GPT-2, GPT-3 : 수백만 개의 웹 페이지에서 단순히 다음 언어를 예측하는 방법을 학습하여 다양한 종류의 입력 프롬프트를 바탕으로 텍스트를 생성 언어모델의 학습문맥 학습(하나의 문장에 대해 다음단어 예측을 학습) + 추론학습 일관성 있는 텍스트 생성의 어려움사전훈련학습 or 지도학습 기반의 미세 튜닝 -> 작업에 특화된 헤드에서 예측한다확률을 기반으로한 텍스트 생성 -> 디코딩 방법이 필요 디코딩 수행주어진 시퀀스를 추정하여 다음에 올 단어를 확률적으로 추정한다 -> 확률의 연쇄법칙을 사용하여 조건부 확률의 곱으로 나타냄 => 이전 시퀀스를 기반으로 다음 단어를 예측한다대부분의 디코딩 방법은 다음단어가 될 가장 높은 확률을 가지는 토큰을 선택한다. 이 때 선택한 확률를 곱하여 전체적으로 확률이 가..