통계/ISLP

[ISLP Chapter 2] 통계학습

notty 2024. 1. 24. 00:14
728x90

일반적인 형태

Y = f(X)+ε

  • f : 알려지지 않은 고정함수
  • Y : 종속변수, 결과변수 등등
  • X : 독립변수, 설명변수 등등
  • ε : 랜덤 오차항 (X와 독립적, 평균 = 0)

 

1. 통계학습이란?

: f를 추정하는 일련의 기법들을 말한다

 

1.1 f를 추정하는 이유는?

: 대표적으로 예측과 추론을 수행하기 위함

 

예측(Prediction) -> 축소가능 오차를 최소로 하는 f를 추정하는 것이 목표

Ŷ = f̂(X)

  • ε 의 평균이 0이어서 생략
  •  : 블랙박스로 취급 한다. 
  • f̂ 이 Y에 대한 정확한 예측을 수행한다면 모델의 형태에는 신경쓰지 않는다
  • 예측 정확성

    • 축소가능(reducible) 오차 : f를 다시 추정해나가면서 개선 가능
    • 축소불가능(irreducible) 오차 : 개선 불가능 -> 예) 사용되지 않은 입력변수에 대한 오차라면 예측 불가능

 

추론(Inferrence) -> 개별 설명변수와 반응변수사이의 관계를 설명

  • X가 Y에 어떻게 영향을 미치는지  
    • 어떤 X들이 Y와 관련이 있는가?
    • X와 Y사이의 상관관계는 무엇인가?
    • X와 Y사이의 상관관계는 선형 방정식으로 요약이 가능한가?

 

1.2 어떻게 f를 추정하는가?

  • 서로 다른 데이터 포인트인 훈련데이터 --훈련--> f를 추정 ->  f̂

 

모수적 방법(Parametric Methods)

  • 모델기반의 방법
    ① 함수 f의 형태를 가정
    ② 훈련데이터로 함수 f를 적합, 파라미터를 추정 (최소제곱법을 사용)
  • 장점 : f 추정하는 문제를 단순화
  • 단점 : f̂과 실제의 f의 형태는 보통 맞지 않다

 

비모수적 방법(Non-parametric Methods)

  • f의 형태 가정x
  • 관측 데이터로부터 적합한 f를 추정한다. 
  • 장점 : 더 넓은 범위의 f 형태에 정확하게 적합 가능
  • 단점 : 아주 많은 수의 관측치가 필요함
  • 과적합의 위험성 : f̂가 너무 데이터에 적합할 경우 새로운 관측치를 잘 추정하지 못한다. 

 

1.3 예측 정확도와 모델 해석력 사이의 절충

: 모델 유연성이 높으면 예측력이 높고 해석력은 낮다 (모델 유연성이 낮으면 예측력이 낮고 해석력은 높다)

  • 추론 목적의 추정 : 제한적인 모델을 사용하여 유연성을 낮추고 해석력을 높힌다
  • 예측 목적의 추정 : 적당히 유연한 모델을 사용하여 예측 정확도를 높힌다. (과적합 주의)

 

1.4 지도학습과 비지도학습

지도학습

  • X, Y가 모두 수집된 경우에 사용
  • 예측에 대한 Y를 더 정확히 예측, 추론을 더 잘 이해

 

비지도학습

  • X만 수집된 경우에 사용
  • 클러스터링을 통한 X변수 그룹 식별

 

+ 준지도학습

  • 수집된 X, Y중 일부의 Y가 수집되지 않은 경우에 사용

 

1.5 회귀와 분류문제

* 변수 구분 

  • 양적 변수 : 수치값
  • 질적변수 : class, category

 

회귀

  • 대개 양적 반응변수와 관련된 문제

 

분류

  • 대개 질적 반응변수와 관련된 문제

** 하지만 로지스틱 회귀의 경우 분류를 목적으로 하지만 양적 반응변수를 사용함

=> 그 경계가 완전 고정적이지는 않음

 

2. 모델의 정확도 평가

통계에는 모든 자료에 대해 지배적으로 나은 방법은 없다 -> 최고의 기법을 선택하는 것이 중요

 

2.1 적합의 품질 측정

  • 추정한 f가 실제로 얼마나 잘 맞는지 측정 -> MSE로 측정
    • MSE(평균제곱오차, Mean Squared Error) 
      관측치와 예측값의 차이제곱의 합을 데이터의 갯수로 나눈것 (값이 작을수록 좋음)
  • 훈련 MSE : 훈련 데이터에 대한 MSE -> 검정데이터에서는 같은 수치가 나오지 않을 수도 있음
  • 검증 MSE
    • 훈련데이터에 속하지 않은 데이터 측정 
    • Y를 포함한 검증셋이 따로 없는 경우 : 교차검증(cross-validation)
  • 훈련 MSE는 작아도 검증 MSE는 큰 경우가 보통
  • 자유도와  MSE
    • 자유도가 너무 높은 경우 (유연한 방법) -> 과대적합 -> MSE증가
    • 자유도가 적당한 경우 -> 최소 MSE
    • 자유도가 너무 작은 경우(유연하지 않은 방법) -> 과소적합 -> MSE 증가

 

2.2 편향 - 분산 절충

  • Var(f̂(X0)) + [Bias(f̂(x0))]^2 : 축소가능 오차
  • Var( ε ) : 축소불가능 오차
  • 기대검정 오차를 최소 -> 낮은 분산과 낮은 편향을 동시에 만족해야한다. 

 

분산

  • f에 대해 다른 훈련 자료로 적합하는 경우 f̂이 변동되는 정도 
  • 유연성이 높을우록 분산도 높아진다
    • 유연성이 높다는 것은 훈련시 사용한 데이터에 최적화되었다는것
      -> 값을 바꿀 경우 변동이 심해짐
  • 분산이 낮을수록 적합한 방법임

 

편향

  • 실제 문제를 훨씬 단순한 모델로 근사시켜 발생하는 오차
    • 유연성이 높은 방법 -> 선형모델 => 편향이 증가한다 (선형모델에서는 표현하지 못하는 정보가 있을 수 있음)
  • 유연성이 높은 방법일수록 편향이 적다

 

편향 - 분산 절충

  • 유연성이 증가함에 따라 분산은 증가하고 편향은 감소한다. (편향 - 분산 - 검정MSE사이의 관)

2.3 분류 설정

  • 분류 모델의 오차율 (훈련 오차율) 
    I(yi != ŷ) = 1, I(yi == ŷ) = 0 -> 오차율이기 때문에 틀린경우 -> 1, 맞은 경우 -> 0
  • 검정오차율
  • 좋은 분류기 : 검정오차가 가장 작은것

 

베이즈 분류기(Bayes Classifier)

  • 조건부 확률
  • 0.5를 임계치로 2class 예측 가능
  • 조건부 확률이 정확히 50%인 점들을 연결 -> 베이즈 결정경계
  • 베이즈 오차율
    모집단에 클래스가 겹쳐있는 경우가 있어 0보다 큰값이 나올수도 있음
    축소 불가능 오차와 유사

 

K-최근접이웃 (K-Nearest Neighbors)

  • 주어진 X에 대한 Y의 조건부 분포를 추정 -> 가장 높은 추정 확률을 가지는 클래스로 분류
  • 조건부 확률의 상황인 때 가장 가까운 k개의 점이 속한 클래스의 비율로 추정 -> 비율 높은 클래스로 할당
  • K 값이 작아질수록 유연성 수준이 높아짐 -> 과대적합의 가능성
  • K 값이 작아질수록 유연성 수준이 낮아짐 -> 과소적합의 가능성
728x90
반응형

'통계 > ISLP' 카테고리의 다른 글

[ISLP Chapter 7] 기저함수  (0) 2024.03.06
[ISLP Chapter 7] 계단함수  (0) 2024.03.06
[ISLP Chapter 7] 다항식 회귀  (0) 2024.03.05
[ISLP Chapter 4] 분류  (1) 2024.02.13
[ISLP Chapter 3] 선형회귀  (1) 2024.01.27