지도, 비지도, 앙상블
머신러닝에 대하여
목적: 손실함수 최소
지도학습:
KNN(k nearest neighbors)
-cluster, classifier, regressor
-k개의 제일 가까운 이웃을 이용
-거리계산: 유클리디안 거리
-classifier: 다수결에서 다를 예측값으로
-regressor: 평균
-장점: 쉬움
-단점:이상치 처리의 어려움
naive bayes
-조건부확률을 사용
SVM(support vector machine)
-목적: 마진값은 큰데 오차가 적은 초평면을 찾는것
-classifier, regressor
-초평면을 이용해서 데이터의 오차가 가장
-내적이 0에 가까운 것들을 그린 것이 초평면
-w 벡터 가장 오차가 적은 벡터 (데이터를 가장 잘 설명할 수 있는 벡터)
-w는 편향이 센것이고 초평면은 편향X
-r에서 cost, gamma params:
-cost: 오차 허용치(=마진)-> 제약조건(cost작 --> 마진값은 넓어짐), cost가 너무 작다면 under-fitting(반대는 over-fitting)
-gamma: (학습을 시키는)데이터의 의존성을 나타낸다. -> gamma가 클 학습 데이터를 많이 반영. -> gamma 크면 over-fitting
==> 축이 선형이 아니고 모든 데이터를 반영하려고 한다
회귀
-단순회귀(feature = 1), 다중회귀(feature >1), 다항회귀
다항회귀
-다중회귀의 일종
-하나의 독립변수로 예측하기 힘들어서 하나의 feature를 차수만 다르게 하여 변수로 사용(x -> x^2, x^3 ....., 너무 많아지면 over-fitting)
-차수만 다르게 해서
-최적의 차수를 찾는것
Ridge
-회귀계수에 제곱
-계수들의 합을 최소화 시키는 것을 목표로 한다
Lasso
-회귀계수에 절댓값
-차원 축소의 개념
Elestic Net
-릿지+랏소
비지도 학습
clustering
-그룹간의 거리는 넓게, 그룹 내에서의 거리는 가깝게
==> 그룹간 변동은 크게 그룹내 변동은 작게
kmeans cluster
-k개의 군집 평균을 가지고 clustering
dbscan
-임의의 포닝트에서 시작, 밀도를 측정하면서 군집을 분류한다
-모류가 많아서 잘 쓰이지 않는다.
앙상블
-여러개의 학습기 --> 더 좋은 성능의 모델
하나의 알고리즘을 사용하는 경우
-배깅, 부스팅
여러개의 알고리즘을 사용하는 경우
-보팅, 스태킹
보팅(voting)
-여러개의 학습기를 사용
-전체데이터를 각 학습기에 넣고 다수결 투표
-많은 쪽으로 예측
-다수의 의견의 따른다
-하드보팅/ 소프트 보팅
-하드보팅: 다수결
-소프트보팅: 확률의 합이 더 큰 쪽으로 결정
스태킹(stacking)
-쌓는다
-전체데이터가 똑같이 들어간다
-베타학습기, 메타 학습기
-모델 n개를 사용해서 각각에 대해서 성능을 뽑는다
-베타학습기: 가장 좋은성능을 가지는 모델을 제외한 모델
-메타학습기: 가장 좋은 성능을 가지는 모델
배깅(bootstrap aggrigation)
-RF(random forest)
**random ==> 2가지 의미: bootstrap, feature random
**bootstrap: 중복허용 랜덤하게 데이터를 뽑는다
feature random: 중복허용X, 랜덤하게
부스팅(boosting)
-약한 학습기를 가지고 오차를 수저하면서 진행
-gradient boosting
xg boosting: 병렬로 처리, gradient boosting보다 빠르다
PCA
-pc1, pc2, pc3 --> 독립변수들의 선형결합으로 이루어져있다. ==> 설명할 수 있는 정보량이 나온다, 누적정보량을 보고 0.8 미만이면 잘라버린다
-목적: 변수가 많아지면 변수들간의 상관관계가 생긴다 --> 중복되는 변수가 생긴다
-차원의 저주(다중 공선성)
-변수 늘어나면 --> 차원 증가 --> 데이터 증가 ==> 해결하기 위해 PCA사용
-최소한의 오차를 가지고 일정수준의 오차를 허용해서 적은수의 차원으로 데이터를 설명한다
cross validation
-grid search, random search에 사용된다
-교차검정: train/val/test를 사용 train을 가지고 모델을 훈련, validation을 통해서 검정한다.
-전체 데이터를 n개로 나누고 n번의 검정을 한다 데이터를 바꿔가면서
-전체 지표들의 평균을 가지고 최종 지표
grid search
-전수조사: 정해놓은 params의 모든 조합에 대해서 검증한다
-각각 마다 교차검정이 들어간다
random search
-params들 중 랜덤하게 조합한다
-표본의 개념
-랜덤한 경우 중 가장 최적의 경우를 본다
'2023 > 물사랑 나라사랑' 카테고리의 다른 글
앙상블 (Ensemble) (0) | 2023.10.03 |
---|---|
최종데이터 처리 (0) | 2023.09.24 |
요약) 강화학습을 이용한 응집제 주입률 최적화 (0) | 2023.09.11 |
EDA 정리 (0) | 2023.09.08 |
연습 데이터) 상수원-취수원 통합 수질 및 녹조 데이터 (0) | 2023.09.07 |