728x90

2024/06 4

[chapter 6] 요약

텍스트 요약도메인마다 요약하는 방식에 차이가 있음 -> 언어모델이 이를 파악하기에는 어려움이 있음정교한 수준의 도메인 일반화가 필요함seq-to-seq 방식임(입력 : 줄글 텍스트 -> 출력 : 요약 텍스트) CNN/DailyMail 데이터셋CNN/DailyMail 데이터셋 (https://huggingface.co/datasets/ccdv/cnn_dailymail)300000개의 뉴스기사, 요약 쌍요약이 본문에서 추출된것이 아니고 머리글 형식으로 새로운 문장으로 요약을 구성article(본문), highlisgts(요약), id(기사 고유id) 트랜스포머 모델의 토큰 갯수 제약트랜스 포머 모델의 최대 토큰이 대략 1000개 임토큰 1000개를 넘는 긴 기사의 경우 절단이 불가피, 끝에 중요 내용 손실 ..

[Chapter 5] 텍스트 생성

GPT-2, GPT-3 : 수백만 개의 웹 페이지에서 단순히 다음 언어를 예측하는 방법을 학습하여 다양한 종류의 입력 프롬프트를 바탕으로 텍스트를 생성 언어모델의 학습문맥 학습(하나의 문장에 대해 다음단어 예측을 학습) + 추론학습 일관성 있는 텍스트 생성의 어려움사전훈련학습 or 지도학습 기반의 미세 튜닝 -> 작업에 특화된 헤드에서 예측한다확률을 기반으로한 텍스트 생성 -> 디코딩 방법이 필요 디코딩 수행주어진 시퀀스를 추정하여 다음에 올 단어를 확률적으로 추정한다 -> 확률의 연쇄법칙을 사용하여 조건부 확률의 곱으로 나타냄 => 이전 시퀀스를 기반으로 다음 단어를 예측한다대부분의 디코딩 방법은 다음단어가 될 가장 높은 확률을 가지는 토큰을 선택한다. 이 때 선택한 확률를 곱하여 전체적으로 확률이 가..

[kaggle learn geopandas] Your First Map

사용 데이터 실생활에서 geo data를 활용하는 경우일본에서 지진이 많이 일어나는곳을 지도에 표시특정 종의 동물의 서식지 파악등등 지도 상에 표현할 수 있는 경우Reading datageospatial file format은  shapefile, GeoJSON, KML, GPKG등 다양하다이 코스에서는 shapefile을 다룰것이다geopandas library를 사용python에서 지리공간 데이터 작업을 지원하는 오픈소스 프로젝트geopandas는 pandas의 데이터 타입을 확장하여 geometric(기하학적)타입에 대해 spital(공간)작업을 가능하도록한다import geopandas as gpd# read_file() 로 파일 불러오기gpd_data = gpd.read_file('file pa..

Python/Pandas 2024.06.04

[Chapter 4] NER

목적 : 스위스에서 주로 사용하는 고객을 위해 NER을 수행한다 데이터셋'PAX-X' 라고 불리는 교차 언어 전이 평가(Cross-Lingual TRansfer Eveluation of Multilingual Encoders, XTREME)을 사용스위스에서 사용되는 4개의 언어(독일어, 프랑스어, 이탈리아어, 영어)를 비율을 조정하여 데이터셋 구성각 언어에 대해서 IOB2포맷(개체에 해당되는 첫 토큰은 B-로 시작하고 연속되는 토큰은 I-로 표시, 아무것도 속하지 않으면 O 료시) 의 NER 태그가 표시되어있다NER 태그B- : 개체명 시작0 : 어떤 개체에도 속하지 않는다I- : 개체명 연속개체명의 종류 : LOC, PER, ORGfrom datasets import get_dataset_config_..

728x90
반응형