통계/기본개념

[통계] 분산 (variance), 편향 (bias) trade-off

notty 2024. 2. 6. 14:32
728x90

*에러 : 분산에 의한, 편향에 의한, 축소 불가능한 에러

이상적인 모델 : 분산이 작고 편향이 작은 robust한 모델

모델의 분산 (variance)

: 해당 모델을 다른 훈련 데이터로 학습시키는 경우 f^이 달라지는 정도 

  • 모델의 복잡도와 관련이 있다. 
  • 분산이 높다 -> 모델이 훈련데이터에 overfitting 되어있다 => 모델이 과하게 복잡함
  • 분산이 낮다 -> 모델의 복잡도가 적절하다.

 

그래프

  • 유연한 모델일수록 MSE가 작아진다. 어느정도 유연해지면 그 이후는 MSE증가한다. 

모델의 편향 (bias)

: 복잡한 상관관계를 가지는 데이터를 덜복잡한 모델에 근사했을 경우 생기는 에러

  • 데이터의 상관성과 연관되어있다 (얘를 들어, 현실의 데이터를 선형회귀에 근사하면 차이가 존재한다)
  • 편향이 높다 : 선택한 모델로 표현되지 않은 정보가 있다.
  • 편향이 낮다 : 데이터를 잘 표현하는 모델이다. 

분산 - 편향 trade-off

  • test MSE가 최소일 때 variance와 bias도 작은 수준이다.

*test MSE는 축소 불가능한 오차 아래로 떨어지지 않는다. 

728x90
반응형

'통계 > 기본개념' 카테고리의 다른 글

[통계] 표준오차 (Standard Error, SE)  (0) 2024.03.05
[통계] TSS, RSS, ESS  (1) 2024.02.06