[ISLP Chapter 2] 통계학습

통계/ISLP

[ISLP Chapter 2] 통계학습

notty 2024. 1. 24. 00:14

728x90

일반적인 형태

Y = f(X)+ε

f : 알려지지 않은 고정함수
Y : 종속변수, 결과변수 등등
X : 독립변수, 설명변수 등등
ε : 랜덤 오차항 (X와 독립적, 평균 = 0)

1. 통계학습이란?

: f를 추정하는 일련의 기법들을 말한다

1.1 f를 추정하는 이유는?

: 대표적으로 예측과 추론을 수행하기 위함

예측(Prediction) -> 축소가능 오차를 최소로 하는 f를 추정하는 것이 목표

Ŷ = f̂(X)

ε 의 평균이 0이어서 생략
f̂ : 블랙박스로 취급 한다.
f̂ 이 Y에 대한 정확한 예측을 수행한다면 모델의 형태에는 신경쓰지 않는다
예측 정확성
- 축소가능(reducible) 오차 : f를 다시 추정해나가면서 개선 가능
- 축소불가능(irreducible) 오차 : 개선 불가능 -> 예) 사용되지 않은 입력변수에 대한 오차라면 예측 불가능

추론(Inferrence) -> 개별 설명변수와 반응변수사이의 관계를 설명

X가 Y에 어떻게 영향을 미치는지
- 어떤 X들이 Y와 관련이 있는가?
- X와 Y사이의 상관관계는 무엇인가?
- X와 Y사이의 상관관계는 선형 방정식으로 요약이 가능한가?

1.2 어떻게 f를 추정하는가?

서로 다른 데이터 포인트인 훈련데이터 --훈련--> f를 추정 -> f̂

모수적 방법(Parametric Methods)

모델기반의 방법
① 함수 f의 형태를 가정
② 훈련데이터로 함수 f를 적합, 파라미터를 추정 (최소제곱법을 사용)
장점 : f 추정하는 문제를 단순화
단점 : f̂과 실제의 f의 형태는 보통 맞지 않다

비모수적 방법(Non-parametric Methods)

f의 형태 가정x
관측 데이터로부터 적합한 f를 추정한다.
장점 : 더 넓은 범위의 f 형태에 정확하게 적합 가능
단점 : 아주 많은 수의 관측치가 필요함
과적합의 위험성 : f̂가 너무 데이터에 적합할 경우 새로운 관측치를 잘 추정하지 못한다.

1.3 예측 정확도와 모델 해석력 사이의 절충

: 모델 유연성이 높으면 예측력이 높고 해석력은 낮다 (모델 유연성이 낮으면 예측력이 낮고 해석력은 높다)

추론 목적의 추정 : 제한적인 모델을 사용하여 유연성을 낮추고 해석력을 높힌다
예측 목적의 추정 : 적당히 유연한 모델을 사용하여 예측 정확도를 높힌다. (과적합 주의)

1.4 지도학습과 비지도학습

지도학습

X, Y가 모두 수집된 경우에 사용
예측에 대한 Y를 더 정확히 예측, 추론을 더 잘 이해

비지도학습

X만 수집된 경우에 사용
클러스터링을 통한 X변수 그룹 식별

+ 준지도학습

수집된 X, Y중 일부의 Y가 수집되지 않은 경우에 사용

1.5 회귀와 분류문제

* 변수 구분

양적 변수 : 수치값
질적변수 : class, category

회귀

대개 양적 반응변수와 관련된 문제

분류

대개 질적 반응변수와 관련된 문제

** 하지만 로지스틱 회귀의 경우 분류를 목적으로 하지만 양적 반응변수를 사용함

=> 그 경계가 완전 고정적이지는 않음

2. 모델의 정확도 평가

통계에는 모든 자료에 대해 지배적으로 나은 방법은 없다 -> 최고의 기법을 선택하는 것이 중요

2.1 적합의 품질 측정

추정한 f가 실제로 얼마나 잘 맞는지 측정 -> MSE로 측정
- MSE(평균제곱오차, Mean Squared Error)
  관측치와 예측값의 차이제곱의 합을 데이터의 갯수로 나눈것 (값이 작을수록 좋음)
훈련 MSE : 훈련 데이터에 대한 MSE -> 검정데이터에서는 같은 수치가 나오지 않을 수도 있음
검증 MSE
- 훈련데이터에 속하지 않은 데이터 측정
- Y를 포함한 검증셋이 따로 없는 경우 : 교차검증(cross-validation)
훈련 MSE는 작아도 검증 MSE는 큰 경우가 보통
자유도와 MSE
- 자유도가 너무 높은 경우 (유연한 방법) -> 과대적합 -> MSE증가
- 자유도가 적당한 경우 -> 최소 MSE
- 자유도가 너무 작은 경우(유연하지 않은 방법) -> 과소적합 -> MSE 증가

2.2 편향 - 분산 절충

Var(f̂(X0)) + [Bias(f̂(x0))]^2 : 축소가능 오차
Var( ε ) : 축소불가능 오차

기대검정 오차를 최소 -> 낮은 분산과 낮은 편향을 동시에 만족해야한다.

분산

f에 대해 다른 훈련 자료로 적합하는 경우 f̂이 변동되는 정도
유연성이 높을우록 분산도 높아진다
- 유연성이 높다는 것은 훈련시 사용한 데이터에 최적화되었다는것
  -> 값을 바꿀 경우 변동이 심해짐
분산이 낮을수록 적합한 방법임

편향

실제 문제를 훨씬 단순한 모델로 근사시켜 발생하는 오차
- 유연성이 높은 방법 -> 선형모델 => 편향이 증가한다 (선형모델에서는 표현하지 못하는 정보가 있을 수 있음)
유연성이 높은 방법일수록 편향이 적다

편향 - 분산 절충

유연성이 증가함에 따라 분산은 증가하고 편향은 감소한다. (편향 - 분산 - 검정MSE사이의 관)

2.3 분류 설정

분류 모델의 오차율 (훈련 오차율)
I(yi != ŷ) = 1, I(yi == ŷ) = 0 -> 오차율이기 때문에 틀린경우 -> 1, 맞은 경우 -> 0
검정오차율
좋은 분류기 : 검정오차가 가장 작은것

베이즈 분류기(Bayes Classifier)

조건부 확률
0.5를 임계치로 2class 예측 가능
조건부 확률이 정확히 50%인 점들을 연결 -> 베이즈 결정경계
베이즈 오차율
모집단에 클래스가 겹쳐있는 경우가 있어 0보다 큰값이 나올수도 있음
축소 불가능 오차와 유사

K-최근접이웃 (K-Nearest Neighbors)

주어진 X에 대한 Y의 조건부 분포를 추정 -> 가장 높은 추정 확률을 가지는 클래스로 분류
조건부 확률의 상황인 때 가장 가까운 k개의 점이 속한 클래스의 비율로 추정 -> 비율 높은 클래스로 할당
K 값이 작아질수록 유연성 수준이 높아짐 -> 과대적합의 가능성
K 값이 작아질수록 유연성 수준이 낮아짐 -> 과소적합의 가능성

728x90

'통계 > ISLP' 카테고리의 다른 글

[ISLP Chapter 7] 기저함수 (0)	2024.03.06
[ISLP Chapter 7] 계단함수 (0)	2024.03.06
[ISLP Chapter 7] 다항식 회귀 (0)	2024.03.05
[ISLP Chapter 4] 분류 (1)	2024.02.13
[ISLP Chapter 3] 선형회귀 (1)	2024.01.27

현재글[ISLP Chapter 2] 통계학습

250x250

notty

딥러닝, 위키북스, 이분탐색, 인공지능, 다항식회귀, 파이썬, Pinecone, Algorithm, pandas, pandas기초, 알고리즘, kaggle learn, 파이토치, chunksize, 통계, 통계학습, 그래프, 개발자, 벡터db, DP,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

notty