표준적 선형모델
다항식 함수 (표준적 선형 모델의 확장)
: xi, xi^2, xi^3 ... xi^d 을 설명 변수로 가지는 표준 선형 모델 (d↑, 비선형성↑)
* 다항식함수는 선형 모델인데 왜 곡선이 생성됨???
- '다항식 회귀는 선형적 모델'에서 '선형적'의 의미는 '선형적 결합(상수*설명변수의 합)'이라는 의미임. 다시말해서 종속변수를 나타낼 때 선형적 결합으로 표현한다는 의미이다. 곡선의 형태임
- 선형 회귀의 '선형성' 가정은 X와 Y의 관계가 선형적이라는 것을 의미함 (직선 형태)
파라미터 추정
: 최소제곱회귀를 사용하여 추정
* '최소제곱' vs '최소제곱회귀'
- 최소제곱 : 관측값들과 예측값의 잔차(설명 가능한 오차)를 최소화 하는 방법
- 최소제곱회귀 : 최소제곱법을 사용하여 최적의 모델을 찾는 과정
적합의 분산
f^(x0)=β^0+β^1x0+β^2x0^2+β^3x0^3+β^4x0^4
- 적합된 모델 f^에 다른 훈련 셋을 사용하여 적합한 각각의 모델이 추정한 y^에 대한 평균 y^에 대해서 각 모델의 y^이 퍼진 정도를 나타냄
- 루트를 씌우면 표준오차를 구할 수 있음. 표준오차는 입력된 데이터 포인트에 대한 모델의 예측 불확실성을 의미함.
적합 모델의 신뢰구간
책에 제시된 그림에서 신뢰구간은 2표준오차*2 로 계산했다고함. 데이터가 정규분포인 경우 이런 계산이 가능함
* 정규분포에서 평균을 중심으로 2*(2 표준오차) 범위가 95.4% 면적을 가진다.
다항식 함수를 성명변수로 하는 로지스틱 회귀
- 위의 왼쪽 그래프에서 데이터 포인트를 보면 모집단이 2개 있는것처럼 보여짐. wage가 230 ~250 사이를 기준으로.
-> 왼쪽 그래프는 나이별로 wage가 250 이상일 확률을 나타낸 그래프임 (실선은 wage가 250 이상일 때의 사후 확률, 점선은 95% 신뢰구간)
- 250을 기준으로 저임금/고임금 그룹으로 이집 분류하는 문제임 -> 로지스틱 회귀 사용
- 왼쪽 그래프의 60세 이상의 신뢰구간이 급격하게 증가하는 모습을 보임
-> 60세 이상의 그룹에 대한 데이터 관측값이 적고, 각 데이터 포인트들이 퍼져있어 추정된 계수들의 분산이 클것으로 예상. 20~30의 경우에도 관측치가 적지만 데이터들이 퍼져있지는 않음. 따라서 신뢰구간이 60~ 보다 급격히 변하지 않음.
'통계 > ISLP' 카테고리의 다른 글
[ISLP Chapter 7] 기저함수 (0) | 2024.03.06 |
---|---|
[ISLP Chapter 7] 계단함수 (0) | 2024.03.06 |
[ISLP Chapter 4] 분류 (1) | 2024.02.13 |
[ISLP Chapter 3] 선형회귀 (1) | 2024.01.27 |
[ISLP Chapter 2] 통계학습 (1) | 2024.01.24 |