728x90
일반적인 형태
Y = f(X)+ε
- f : 알려지지 않은 고정함수
- Y : 종속변수, 결과변수 등등
- X : 독립변수, 설명변수 등등
- ε : 랜덤 오차항 (X와 독립적, 평균 = 0)
1. 통계학습이란?
: f를 추정하는 일련의 기법들을 말한다
1.1 f를 추정하는 이유는?
: 대표적으로 예측과 추론을 수행하기 위함
예측(Prediction) -> 축소가능 오차를 최소로 하는 f를 추정하는 것이 목표
Ŷ = f̂(X)
- ε 의 평균이 0이어서 생략
- f̂ : 블랙박스로 취급 한다.
- f̂ 이 Y에 대한 정확한 예측을 수행한다면 모델의 형태에는 신경쓰지 않는다
- 예측 정확성
- 축소가능(reducible) 오차 : f를 다시 추정해나가면서 개선 가능
- 축소불가능(irreducible) 오차 : 개선 불가능 -> 예) 사용되지 않은 입력변수에 대한 오차라면 예측 불가능
추론(Inferrence) -> 개별 설명변수와 반응변수사이의 관계를 설명
- X가 Y에 어떻게 영향을 미치는지
- 어떤 X들이 Y와 관련이 있는가?
- X와 Y사이의 상관관계는 무엇인가?
- X와 Y사이의 상관관계는 선형 방정식으로 요약이 가능한가?
1.2 어떻게 f를 추정하는가?
- 서로 다른 데이터 포인트인 훈련데이터 --훈련--> f를 추정 -> f̂
모수적 방법(Parametric Methods)
- 모델기반의 방법
① 함수 f의 형태를 가정
② 훈련데이터로 함수 f를 적합, 파라미터를 추정 (최소제곱법을 사용) - 장점 : f 추정하는 문제를 단순화
- 단점 : f̂과 실제의 f의 형태는 보통 맞지 않다
비모수적 방법(Non-parametric Methods)
- f의 형태 가정x
- 관측 데이터로부터 적합한 f를 추정한다.
- 장점 : 더 넓은 범위의 f 형태에 정확하게 적합 가능
- 단점 : 아주 많은 수의 관측치가 필요함
- 과적합의 위험성 : f̂가 너무 데이터에 적합할 경우 새로운 관측치를 잘 추정하지 못한다.
1.3 예측 정확도와 모델 해석력 사이의 절충
: 모델 유연성이 높으면 예측력이 높고 해석력은 낮다 (모델 유연성이 낮으면 예측력이 낮고 해석력은 높다)
- 추론 목적의 추정 : 제한적인 모델을 사용하여 유연성을 낮추고 해석력을 높힌다
- 예측 목적의 추정 : 적당히 유연한 모델을 사용하여 예측 정확도를 높힌다. (과적합 주의)
1.4 지도학습과 비지도학습
지도학습
- X, Y가 모두 수집된 경우에 사용
- 예측에 대한 Y를 더 정확히 예측, 추론을 더 잘 이해
비지도학습
- X만 수집된 경우에 사용
- 클러스터링을 통한 X변수 그룹 식별
+ 준지도학습
- 수집된 X, Y중 일부의 Y가 수집되지 않은 경우에 사용
1.5 회귀와 분류문제
* 변수 구분
- 양적 변수 : 수치값
- 질적변수 : class, category
회귀
- 대개 양적 반응변수와 관련된 문제
분류
- 대개 질적 반응변수와 관련된 문제
** 하지만 로지스틱 회귀의 경우 분류를 목적으로 하지만 양적 반응변수를 사용함
=> 그 경계가 완전 고정적이지는 않음
2. 모델의 정확도 평가
통계에는 모든 자료에 대해 지배적으로 나은 방법은 없다 -> 최고의 기법을 선택하는 것이 중요
2.1 적합의 품질 측정
- 추정한 f가 실제로 얼마나 잘 맞는지 측정 -> MSE로 측정
- MSE(평균제곱오차, Mean Squared Error)
관측치와 예측값의 차이제곱의 합을 데이터의 갯수로 나눈것 (값이 작을수록 좋음)
- MSE(평균제곱오차, Mean Squared Error)
- 훈련 MSE : 훈련 데이터에 대한 MSE -> 검정데이터에서는 같은 수치가 나오지 않을 수도 있음
- 검증 MSE
- 훈련데이터에 속하지 않은 데이터 측정
- Y를 포함한 검증셋이 따로 없는 경우 : 교차검증(cross-validation)
- 훈련 MSE는 작아도 검증 MSE는 큰 경우가 보통
- 자유도와 MSE
- 자유도가 너무 높은 경우 (유연한 방법) -> 과대적합 -> MSE증가
- 자유도가 적당한 경우 -> 최소 MSE
- 자유도가 너무 작은 경우(유연하지 않은 방법) -> 과소적합 -> MSE 증가
2.2 편향 - 분산 절충
- Var(f̂(X0)) + [Bias(f̂(x0))]^2 : 축소가능 오차
- Var( ε ) : 축소불가능 오차
- 기대검정 오차를 최소 -> 낮은 분산과 낮은 편향을 동시에 만족해야한다.
분산
- f에 대해 다른 훈련 자료로 적합하는 경우 f̂이 변동되는 정도
- 유연성이 높을우록 분산도 높아진다
- 유연성이 높다는 것은 훈련시 사용한 데이터에 최적화되었다는것
-> 값을 바꿀 경우 변동이 심해짐
- 유연성이 높다는 것은 훈련시 사용한 데이터에 최적화되었다는것
- 분산이 낮을수록 적합한 방법임
편향
- 실제 문제를 훨씬 단순한 모델로 근사시켜 발생하는 오차
- 유연성이 높은 방법 -> 선형모델 => 편향이 증가한다 (선형모델에서는 표현하지 못하는 정보가 있을 수 있음)
- 유연성이 높은 방법일수록 편향이 적다
편향 - 분산 절충
- 유연성이 증가함에 따라 분산은 증가하고 편향은 감소한다. (편향 - 분산 - 검정MSE사이의 관)
2.3 분류 설정
- 분류 모델의 오차율 (훈련 오차율)
I(yi != ŷ) = 1, I(yi == ŷ) = 0 -> 오차율이기 때문에 틀린경우 -> 1, 맞은 경우 -> 0 - 검정오차율
- 좋은 분류기 : 검정오차가 가장 작은것
베이즈 분류기(Bayes Classifier)
- 조건부 확률
- 0.5를 임계치로 2class 예측 가능
- 조건부 확률이 정확히 50%인 점들을 연결 -> 베이즈 결정경계
- 베이즈 오차율
모집단에 클래스가 겹쳐있는 경우가 있어 0보다 큰값이 나올수도 있음
축소 불가능 오차와 유사
K-최근접이웃 (K-Nearest Neighbors)
- 주어진 X에 대한 Y의 조건부 분포를 추정 -> 가장 높은 추정 확률을 가지는 클래스로 분류
- 조건부 확률의 상황인 때 가장 가까운 k개의 점이 속한 클래스의 비율로 추정 -> 비율 높은 클래스로 할당
- K 값이 작아질수록 유연성 수준이 높아짐 -> 과대적합의 가능성
- K 값이 작아질수록 유연성 수준이 낮아짐 -> 과소적합의 가능성
728x90
반응형
'통계 > ISLP' 카테고리의 다른 글
[ISLP Chapter 7] 기저함수 (0) | 2024.03.06 |
---|---|
[ISLP Chapter 7] 계단함수 (0) | 2024.03.06 |
[ISLP Chapter 7] 다항식 회귀 (0) | 2024.03.05 |
[ISLP Chapter 4] 분류 (1) | 2024.02.13 |
[ISLP Chapter 3] 선형회귀 (1) | 2024.01.27 |