728x90

통계/기본개념 3

[통계] 표준오차 (Standard Error, SE)

표준오차 (Standard Error, SE) SE = s/√n *s : 추정치의 편차 : 모집단에서 랜덤하게 추출된 표본평균이 각 표본평균의 평균에 대해서 흩어진 정도 표준편차 (Standard Deviation, SD) SD = σ/√n : 자료(관측치)가 평균에 대해서 흩어진 정도 결론 표준 오차와 표준 편차를 혼용해서 사용하는 경우가 있으나 표준 오차는 표본 통계량의 변동성을 설명하며 이는 표본 평균이 전체 모집단의 평균을 추정하는 데 얼마나 정확한지를 알려준다. 표준 편차는 집단의 평균으로부터 데이터가 얼마나 퍼져있는지를 확인할 수 있다.

통계/기본개념 2024.03.05

[통계] TSS, RSS, ESS

RSS의 비율이 적은 모델이 더 설명력이 있음 -> R^2지표의 원리 R^2 = (TSS - RSS) / TSS = 1 - (RSS / TSS) = ESS / TSS : 총 제곱합 중 설명된 체곱합의 비율 * y의 평균 : 종속변수의 평균은 해당 변수의 전반적인 중심 경향을 보이기 때문에 이를 통해 해당 변수의 변동성을 이해할 수 있음. TSS (총 제곱합, Total Sum of Square) 실제값과 y 평균값의 차이 : 종속변수 y의 총 변동량 RSS (잔차 제곱합, Residual Sum of Square) 회귀모델의 예측값과 실제값의 차이 : 회귀모델이 설명하지 못하는 오차 하이퍼 파리미터 조정, 다른 모델 선택 등으로 줄일 수 있음 -> 하지만 RSS말고 다른 요소들도 고려 필요 ESS (설명..

통계/기본개념 2024.02.06

[통계] 분산 (variance), 편향 (bias) trade-off

*에러 : 분산에 의한, 편향에 의한, 축소 불가능한 에러 이상적인 모델 : 분산이 작고 편향이 작은 robust한 모델 모델의 분산 (variance) : 해당 모델을 다른 훈련 데이터로 학습시키는 경우 f^이 달라지는 정도 모델의 복잡도와 관련이 있다. 분산이 높다 -> 모델이 훈련데이터에 overfitting 되어있다 => 모델이 과하게 복잡함 분산이 낮다 -> 모델의 복잡도가 적절하다. 그래프 유연한 모델일수록 MSE가 작아진다. 어느정도 유연해지면 그 이후는 MSE증가한다. 모델의 편향 (bias) : 복잡한 상관관계를 가지는 데이터를 덜복잡한 모델에 근사했을 경우 생기는 에러 데이터의 상관성과 연관되어있다 (얘를 들어, 현실의 데이터를 선형회귀에 근사하면 차이가 존재한다) 편향이 높다 : 선택..

통계/기본개념 2024.02.06
728x90
반응형