728x90

Deep Learning 5

[chapter 6] 요약

텍스트 요약도메인마다 요약하는 방식에 차이가 있음 -> 언어모델이 이를 파악하기에는 어려움이 있음정교한 수준의 도메인 일반화가 필요함seq-to-seq 방식임(입력 : 줄글 텍스트 -> 출력 : 요약 텍스트) CNN/DailyMail 데이터셋CNN/DailyMail 데이터셋 (https://huggingface.co/datasets/ccdv/cnn_dailymail)300000개의 뉴스기사, 요약 쌍요약이 본문에서 추출된것이 아니고 머리글 형식으로 새로운 문장으로 요약을 구성article(본문), highlisgts(요약), id(기사 고유id) 트랜스포머 모델의 토큰 갯수 제약트랜스 포머 모델의 최대 토큰이 대략 1000개 임토큰 1000개를 넘는 긴 기사의 경우 절단이 불가피, 끝에 중요 내용 손실 ..

[Chapter 5] 텍스트 생성

GPT-2, GPT-3 : 수백만 개의 웹 페이지에서 단순히 다음 언어를 예측하는 방법을 학습하여 다양한 종류의 입력 프롬프트를 바탕으로 텍스트를 생성 언어모델의 학습문맥 학습(하나의 문장에 대해 다음단어 예측을 학습) + 추론학습 일관성 있는 텍스트 생성의 어려움사전훈련학습 or 지도학습 기반의 미세 튜닝 -> 작업에 특화된 헤드에서 예측한다확률을 기반으로한 텍스트 생성 -> 디코딩 방법이 필요 디코딩 수행주어진 시퀀스를 추정하여 다음에 올 단어를 확률적으로 추정한다 -> 확률의 연쇄법칙을 사용하여 조건부 확률의 곱으로 나타냄 => 이전 시퀀스를 기반으로 다음 단어를 예측한다대부분의 디코딩 방법은 다음단어가 될 가장 높은 확률을 가지는 토큰을 선택한다. 이 때 선택한 확률를 곱하여 전체적으로 확률이 가..

[Chapter 4] NER

목적 : 스위스에서 주로 사용하는 고객을 위해 NER을 수행한다 데이터셋'PAX-X' 라고 불리는 교차 언어 전이 평가(Cross-Lingual TRansfer Eveluation of Multilingual Encoders, XTREME)을 사용스위스에서 사용되는 4개의 언어(독일어, 프랑스어, 이탈리아어, 영어)를 비율을 조정하여 데이터셋 구성각 언어에 대해서 IOB2포맷(개체에 해당되는 첫 토큰은 B-로 시작하고 연속되는 토큰은 I-로 표시, 아무것도 속하지 않으면 O 료시) 의 NER 태그가 표시되어있다NER 태그B- : 개체명 시작0 : 어떤 개체에도 속하지 않는다I- : 개체명 연속개체명의 종류 : LOC, PER, ORGfrom datasets import get_dataset_config_..

[Chapter 3] 트랜스포머

트랜스포머인코더-디코더의 구조를 가지며 어탠션 매커니즘을 적용기존의 RNN기반의 seq2seq의 한계decoder hidden state에서 인코더에서 도출된 하나의 context vector를 사용하여 디코딩 하여 앞선 정보는 적게 반영됨순차적으로 전달되어야해서 병렬화 불가능RNN기반의 seq2seq에서 어탠션 매커니즘만을 사용하여 구현하였음 **어탠션 메커니즘**이전에는 디코더의 각 시점에 인코더에서 도출된 하나의 context vector를 사용하였음 (오래된 정보 소실)하지만 디코더의 각 시점에 인코더의 모든 정보에 대해서 가중치를 다르게 하여 참고한다. 현 시점 디코더의 hidden state(Q)와 인코더의 모든 정보(K)에 대해 유사도 계산 (dot product)계산된 유사도를 softma..

[Chapter 3] 코드_1

tensor.size(-1)tensor.size() --> torch.Size([1, 5, 768])tensor.size(-1) --> 768-1이 인덱스 느낌임 torch.bmm(tensor1, tensor2)배치 행렬곱내적하는 경우 사용하는 tensor.transpose(1,2)tensor.transpose(1,2) : (배치 크기, 시퀀스 길이, 히든 크기) --> (배치 크기, 히든 크기, 시퀀스 길이) import torch.nn.functional as Fhttps://pytorch.org/docs/stable/nn.functional.htmlConvolution functions Pooling functions Attention Mechanisms Activation functions 등등...

728x90
반응형