728x90

전체 글 57

[kaggle learn pandas] Grouping and Sorting

사용한 데이터 형태 groupbygroupby()로 선택한 컬럼에 대한 그룹화를 진행한다그룹화는 해당 열의 데이터들의 unique한 값을 기준으로 묶는다해당 그룹에 대해서 count(), mean(), min() 등등을 수행할 수 있다. # df의 col_name1로 그룹화df.groupby('col_name1')# df의 col_name1로 그룹화 한 후 'col_name2'열의 평균을 계산df.groupby('col_name1').col_name2.mean() 1) cylinders열의 unique한 값들을 확인한다 2) cylinders열을 기준으로 groupby를 진행하고 cylinders의 각 unique한 값에 대하여 속하는 mpg열의 값들의 mean을 구한다dataframe에 apply 함수..

Python/Pandas 2024.05.30

[kaggle learn pandas] Summary Functions and Maps

사용한 데이터 형태 Summary functions데이터셋에 대한 기초 통계량을 확인할 수 있다dataframe 전체에 대해서 describe()를 적용하면 수치형 타입의 열에 대해서만 기초 통계를 계산한다수치형 : count, mean, std, min, 25%, 50%, 75%, max문자형 : count, unique, top, freqdf.describe()위 : 수치형 describe()아래 : object describe()Maps해당하는 열의 값들을 다른 값들로 바꾸는것map(), apply()map(), apply() 둘 다 새로운 데이터를 return하지만 원본을 직접 수정하지는 않는다 map()값 하나씩에 접근한다series에 대해서만 사용 가능(lambda x: x-a) : 선택된 열..

Python/Pandas 2024.05.27

[kaggle learn pandas] Indexing, Selecting & Assigning

import pandas as pddf = pd.read_csv('file path', index_col=0) DataFrame의 특정 Series에 접근data frame object의 attribute로 접근하는 방법 1)# df의 attribute로 접근df.feature1만약 col들 중 그 이름에 띄어 쓰기가 포함 되어 있는 경우는 이 방법을 사용하지 못하고 이런 경우에는 2) 방법을 사용하여야한다 2)# 딕셔너리에 접근하는 방법처럼 indexing operator([])을 사용하여 접근df['feature1'] 두개의 방법 모두 같은 결과를 출력한다.  해당 Series의 개별 원소에 접근하는 방법 -> indexing operator ([]) 을 사용한다df['feature1'][0]Inde..

Python/Pandas 2024.05.27

[kaggle learn pandas] Creating, Reading and Writing

DataFrame2차원의 테이블 구조 (행, 열로 구성)각각의 열이 서로 다른 데이터 타입을 가질 수 있음 (예) col1은 int형태이고 col2는 Yes/No의 문자 형태) 같은 열 내에서도 원소들이 다른 타입을 가질 수 있음 (df.info()로 확인하는 경우 섞인 열은 메모리가 큰 자료형의 타입으로 표시됨)series들이 합쳐진 형태Series1차원의 데이터 구조 (하나으 열로 구성)단일 데이터 타입만 가능하다0~ 인덱스를 가지며 사용자 지정 인덱스 구성 가능Create Data Frame 만들기1) 열의 이름만 지정열의 이름('col1','col2')을 지정하고 이를 키로 하고 벨류 위치에는 해당 열의 데이터를 리스트 형식으로 표현한다. 행의 이름은 따로 정해주지 않아 기본 정수 인덱스(0~)를..

Python/Pandas 2024.05.27

[Chapter 3] 트랜스포머

트랜스포머인코더-디코더의 구조를 가지며 어탠션 매커니즘을 적용기존의 RNN기반의 seq2seq의 한계decoder hidden state에서 인코더에서 도출된 하나의 context vector를 사용하여 디코딩 하여 앞선 정보는 적게 반영됨순차적으로 전달되어야해서 병렬화 불가능RNN기반의 seq2seq에서 어탠션 매커니즘만을 사용하여 구현하였음 **어탠션 메커니즘**이전에는 디코더의 각 시점에 인코더에서 도출된 하나의 context vector를 사용하였음 (오래된 정보 소실)하지만 디코더의 각 시점에 인코더의 모든 정보에 대해서 가중치를 다르게 하여 참고한다. 현 시점 디코더의 hidden state(Q)와 인코더의 모든 정보(K)에 대해 유사도 계산 (dot product)계산된 유사도를 softma..

[Chapter 3] 코드_1

tensor.size(-1)tensor.size() --> torch.Size([1, 5, 768])tensor.size(-1) --> 768-1이 인덱스 느낌임 torch.bmm(tensor1, tensor2)배치 행렬곱내적하는 경우 사용하는 tensor.transpose(1,2)tensor.transpose(1,2) : (배치 크기, 시퀀스 길이, 히든 크기) --> (배치 크기, 히든 크기, 시퀀스 길이) import torch.nn.functional as Fhttps://pytorch.org/docs/stable/nn.functional.htmlConvolution functions Pooling functions Attention Mechanisms Activation functions 등등...

[ISLP Chapter 10] CNN

CNN(Convolutional Neural Network) : 인간이 이미지를 보고 특징을 파악하여 분류하는 시신경 시스템을 모방하였다.예시) 이미지를 보고 호랑이라고 분류하기주어진 이미지의 세부(하위) 특징을 파악 -> 다른 특징과 결합하여 상위 특징을 형성 ->  출력 노드에서 호랑이일 확률을 확인하여 분류 그래서 어떻게 특징을 추출하냐..?: convolution, pooling layer로 특징을 추출한다. Convolution layer는 특징을 추출하는 레이어이고 Pooling layer은 추출된 특징을 down sizing하여 더 압축시킨다. Convolution layer원본 이미지에 convolution filter를 곱하여 convolved image를 만든다(stride를 고려, 위..

통계/ISLP 2024.05.01

[ISLP Chapter 10] Single/Multi Layer NN

Single Layer Neural Network : 히든 레이어 = 1인 NN구조입력층 - 출력층 이외에 hidden layer이 존재한다. 입력 층의 각 노드와 히든층의 각 노드가 완전 연결 되어Hidden layer : 입력층의 선형 결합을 더하고 활성함수를 계산하여 출력노드로 전달한다.Output layer : 출력 함수를 적용하여 최종 Y를 결정한다. 이 때 출력 층의 유닛의 개수는 문제에 따라서 달라진다. 예를 들어 multi calss calssification의 경우 softmax함수를 사용하고 출력 층을 class의 개수 만큼 설정 반면하는 반면 회귀 문제의 경우 출력 함수를 항등함수로 설정하여  마지막 히든 레이어의 신호를 그대로 전달한다. Single Layer Neural Netwo..

통계/ISLP 2024.04.25

[ISLP Chapter 9] 서포트 벡터 머신

서포트 벡터 분류기 (SVC, Support Vector Classifier) 는이진 클래스, 분류하는 경계가 선형인 경우 효과적--> 현실은 비선형적인 문제가 더 많음.. ==> 서포트 벡터 머신 (SVM, Support Vector Machine)사용 비선형적 경계보통은 입력 변수의 차원을 매핑함수로 증가시킨 후 각 쌍들을 내적해야한다예) p차원 -> 매핑 함수 Φ 적용 -> 2p차원 -> 모든 쌍들을 내적시켜야한다.한계: 계산량이 기하급수적으로 많아진다, 무한차원 사영은 불가능하다↓SVM에서는 커널트릭 (Kernel Trick)을 사용하여 효율적으로 계산이 가능**최적화**(이거 내용 따로 올려야할)에 대한 이해가 필요하다SVM 목적함수(마진을 최대화하는 w, b를 찾는것)를 La..

통계/ISLP 2024.04.22

[ISLP Chapter 9] 서포트 벡터 분류기

최적의 초평면을 찾아보자!! 초평면(Hyperplane): 주어진 차원보다 한 차원 낮은 아핀(affine)부분공간을 의미한다 ex) p차원 --> (p-1)차원의 초평면을 갖는다, 2차원 --> 1차원의 초평면을 갖는다 하지만 클래스를 분류하는 초평면은 무수히 많음...--> 마진을 최대로 하는 최적의 초평면을 찾자 ==> 최대 마진 분류기* 마진(Margine) : 서포트벡터와 초평면과의 수직거리  최대 마진 분류기(Maximum margin classifier) => 하드 마진(Hard margin): 마진을 최대로 하는 초평면관측치들과 분류 초평면의 거리를 계산하는데 이떄의 관측치는 서포트 벡터를 의미한다--> 최대마진 초평면은 서포트 벡터에 직접적으로 의존적이다 (거..

통계/ISLP 2024.03.20
728x90
반응형