728x90
*에러 : 분산에 의한, 편향에 의한, 축소 불가능한 에러
이상적인 모델 : 분산이 작고 편향이 작은 robust한 모델
모델의 분산 (variance)
: 해당 모델을 다른 훈련 데이터로 학습시키는 경우 f^이 달라지는 정도
- 모델의 복잡도와 관련이 있다.
- 분산이 높다 -> 모델이 훈련데이터에 overfitting 되어있다 => 모델이 과하게 복잡함
- 분산이 낮다 -> 모델의 복잡도가 적절하다.
그래프
- 유연한 모델일수록 MSE가 작아진다. 어느정도 유연해지면 그 이후는 MSE증가한다.
모델의 편향 (bias)
: 복잡한 상관관계를 가지는 데이터를 덜복잡한 모델에 근사했을 경우 생기는 에러
- 데이터의 상관성과 연관되어있다 (얘를 들어, 현실의 데이터를 선형회귀에 근사하면 차이가 존재한다)
- 편향이 높다 : 선택한 모델로 표현되지 않은 정보가 있다.
- 편향이 낮다 : 데이터를 잘 표현하는 모델이다.
분산 - 편향 trade-off
- test MSE가 최소일 때 variance와 bias도 작은 수준이다.
*test MSE는 축소 불가능한 오차 아래로 떨어지지 않는다.
728x90
반응형
'통계 > 기본개념' 카테고리의 다른 글
[통계] 표준오차 (Standard Error, SE) (0) | 2024.03.05 |
---|---|
[통계] TSS, RSS, ESS (1) | 2024.02.06 |