728x90

통계학습 4

[ISLP Chapter 4] 분류

**참고  Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.분류 (Classification)질적 반응변수(qualitative variable, categorical)인 경우 (양적 반응변수(quantitative variable)인 경우는 선형회귀)각 클래스에 대한 확률 계산 -> 가장 확률 높은 클래스로 분류 하는 과정선형회귀로 분류 => 효과적이지 않음선형회귀로 분류문제를 모델링하는것은 적절하지 않다. 이진분류의 경우dummy variable로 변형하..

통계/ISLP 2024.02.13

[통계] TSS, RSS, ESS

RSS의 비율이 적은 모델이 더 설명력이 있음 -> R^2지표의 원리 R^2 = (TSS - RSS) / TSS = 1 - (RSS / TSS) = ESS / TSS : 총 제곱합 중 설명된 체곱합의 비율 * y의 평균 : 종속변수의 평균은 해당 변수의 전반적인 중심 경향을 보이기 때문에 이를 통해 해당 변수의 변동성을 이해할 수 있음. TSS (총 제곱합, Total Sum of Square) 실제값과 y 평균값의 차이 : 종속변수 y의 총 변동량 RSS (잔차 제곱합, Residual Sum of Square) 회귀모델의 예측값과 실제값의 차이 : 회귀모델이 설명하지 못하는 오차 하이퍼 파리미터 조정, 다른 모델 선택 등으로 줄일 수 있음 -> 하지만 RSS말고 다른 요소들도 고려 필요 ESS (설명..

통계/기본개념 2024.02.06

[통계] 분산 (variance), 편향 (bias) trade-off

*에러 : 분산에 의한, 편향에 의한, 축소 불가능한 에러 이상적인 모델 : 분산이 작고 편향이 작은 robust한 모델 모델의 분산 (variance) : 해당 모델을 다른 훈련 데이터로 학습시키는 경우 f^이 달라지는 정도 모델의 복잡도와 관련이 있다. 분산이 높다 -> 모델이 훈련데이터에 overfitting 되어있다 => 모델이 과하게 복잡함 분산이 낮다 -> 모델의 복잡도가 적절하다. 그래프 유연한 모델일수록 MSE가 작아진다. 어느정도 유연해지면 그 이후는 MSE증가한다. 모델의 편향 (bias) : 복잡한 상관관계를 가지는 데이터를 덜복잡한 모델에 근사했을 경우 생기는 에러 데이터의 상관성과 연관되어있다 (얘를 들어, 현실의 데이터를 선형회귀에 근사하면 차이가 존재한다) 편향이 높다 : 선택..

통계/기본개념 2024.02.06

[ISLP Chapter 3] 선형회귀

**참고  Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.선형회귀 주로 양적 반응변수를 예측많은 통계학습 방법의 기반1. 단순선형회귀: 하나의 설명변수(X)로 Y를 예측한다 (X와 Y사이에 선형적 상관관계가 있다고 가정) ~ : '근사적으로 모델링 된'을 의미β0 : 알려지지 않은 상수, 절편(intercept)β1 : 알려지지 않은 상수, 기울기 추정식ŷ  : X = x 일때 Y의 예측값(추정값)ˆβ0, ˆβ1 : 예측된 β0, β11..

통계/ISLP 2024.01.27
728x90
반응형