728x90
**참고 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.
선형회귀
- 주로 양적 반응변수를 예측
- 많은 통계학습 방법의 기반
1. 단순선형회귀
: 하나의 설명변수(X)로 Y를 예측한다 (X와 Y사이에 선형적 상관관계가 있다고 가정)
- ~ : '근사적으로 모델링 된'을 의미
- β0 : 알려지지 않은 상수, 절편(intercept)
- β1 : 알려지지 않은 상수, 기울기
추정식
- ŷ : X = x 일때 Y의 예측값(추정값)
- ˆβ0, ˆβ1 : 예측된 β0, β1
1.1 계수추정
: 관측 데이터를 이용하여 알려지지 않은 β0, β1을 추정한다
- 관측된 n개의 데이터 포인트에 최대한 가깝게 되도록 하는 β0, β1 찾고자한다
- 가까움 측정 방법 : 최소제곱기준 최소화
최소제곱법 -> *잔차제곱합(RSS, Residual Sum of Squares)이 최소인 β0, β1을 선택한다 - RSS가 최소일 때의 ˆβ0, ˆβ1를 구한다
- ȳ : 표본평균
- x̄ : 표본평균
*잔차제곱합 (RSS, Residual Sum of Squares)
- e(잔차) = (y - ŷ)
- RSS = (e1)^2 + (e2)^2 + ... + (en)^2
1.2 계수 추정값의 정확도 평가
- f가 선형모델로 근사되는 경우 ε으로 여러가지 한계를 수반
- ε은 보통 X와 독립이라고 가정한다
모회귀선과 최소제곱선
- 모회귀선 : 모집단에 대해 참인 회귀선
- 최소제곱선 : RSS이 가장 작을 때의 회귀식
- 표본의 정보로 모집단의 특징을 파악
- 최소제곱선은 적용 데이터에 따라 약간씩 변하지만 모회귀선은 변하지 않는다
모평균 추정
- 관측 데이터로부터 모평균(μ) 추정 가능 -> 추정된 모평균 (^ μ)
- 편향(bias) 개념에서의 추정 : 표본평균으로 모평균(μ)을 추정한다면 ^μ은 평균적으로 μ 과 동일하다고 기대되는 점에서 이 추정값은 편향되지 않은 것이라고 할 수 있음
- 더 많은 관측치로부터 추정을 한다면 ^μ은 μ 과 동일한 값을 가진다 ( β0, β1에 대해서도 동일한 원리가 적용된다)
관측치가 적은 경우 ^μ이 잘 추정되었는지 확인하기 위해서 *표준오차(SE, Standard Error)를 계산한다
- σ^2 = Var( ε ), 각 관측치에 대한 오차 ε가 공통의 분산 σ^2과 무상관하다는 가정이 필요
- σ^2가 주어지지 않아 추정해야함, σ의 추정치는 잔차 표준오차(RSE, Residual Standard Error)
RSE = (RSS/(n-2))^1/2
*표준오차(SE, Standard Error)
참고 : https://www.youtube.com/watch?v=kNHrOEavGuI
- 표준오차는 표준편차와 비슷한 원리이다. 표준 편차는 (분산)^1/2으로 평균에서 떨어진 정도
- 표준오차 : 표본집단들 간의 편차
- 표준편차 : 측정 집단 내의 편차
- 표준오차는 n이 증가함에 따라 줄어든다
신뢰구간
- β1의 95% 신뢰구간 ( β0도 동일)
- 광고데이터에서 β0의 95% 신뢰구간이 [6.137, 7.935], β1의 95% 신뢰구간이 [0.042, 0.053]인 경우 광고를 전혀 하지 않을 경우 평균 판매량이 6137, 7935 사이일 것으로 예상되며 1000달러를 투자할 때마다 평균 42~53대 사이만큼 증가할 것이다.
가설검정
1.3 모델의 정확도 평가
- 선형회귀적합의 질ㄹ은 보통 잔차표준오차(RSE)와 R^2 통계량을 사용하여 평가
잔차표준오차(RSE, Residual Standard Error)
- 각 관측치에 오차항 ( ε )이 관련되어있음 -> X로부터 Y를 정확하게 예측 불가
- 잔차표준오차(RSE, Residual Standard Error) : ε의 표준편차에 대한 추정값
=> Y값이 실제 회귀선으로부터 벗어나게 될 평균값을 의미 - 데이터에 대한 모델의 적합성결여(lack of fit)을 나타내는 절대적 측도
- RSE가 작을수록 잘 적합
R^2
- X와 Y 사이의 선형상관관계레 대한 측도
- X에 따른 Y의 변동비율을 측정한다
- 0 <= R^2 <= 1(1에 가까울수록 Y의 변동 중 많은 부분이 회귀에 의해 설명되었음을 의미)
- RSE보다 해석이 쉬움
- (상관계수)^2 == R^2
2. 다중선형회귀
단순성형회귀 : 하나의 X 로 Y 를 추정
다중선형회귀 : 두개 이상의 X로 Y 를 추정
- 두개 이상의 설명변수가 있는 경우
- 각각의 설명변수마다 단순선형회귀 모델을 사용하는 경우 : 다른 X들을 고려하지 않는 방법이다
- 다중선형회귀 모델을 사용하는 경우 : X들을 직접 수용할 수 있도록 한다 (더 나은 방법임)
2.1 회귀계수의 추정
- 단순선형회귀와 비슷 ˆβ0, ˆβ1 : 예측된 β0, β1
- 알려지지 않은 β0, β1, β2, ... , βn을 추정
- 최소제곱법으로 추정 (RSS 최소화)
단순선형회귀와 다중선형회귀 계수 추정
- 같은 X들에 대해서 다중회귀를 수행 했을 때의 추정계수와 단순선형회귀를 수행했을 때의 계수는 다를 수 있음
- 단순선형회귀 : X가 하나여서 X에 대한 Y의 관계를 잘 나타내는 계수로 추정
- 다중선형회귀 : 두개 이상의 X를 사용하여 계수에는 Y와의 관계, X들 끼리의 변동성을 고려한 값이 들어감
유의하지 않은 상관성
- 변수들끼리의 상관성이 존재하는 경우 -> 의미 없는 상관관계 발생 가능성이 있음
2.2 몇 가지 중요한 질문
반응변수와 설명변수 사이에 상관관계가 있는가?
- F-value를 고려하여 적합성 검정
- t-value :
- 각 설명변수의 유의성
- 특정 변수의 계수가 유의한지를 평가 (각 변수의 계수가 Y에 미치는 영향) - F-value :
- 모델의 유의성 평가
- 변수 선택시 전체 모델의 유의성을 고려하여 가장 적절한 변수 조합을 선택
- t-value :
중요 변수의 결정
- 전진선택 : null model -> 변수를 추가 (현재 상황에서 최선의 선택, 그리디)
- 후진선택 : 모든 변수를 가진 모델 -> 변수를 제거 (p > n인 경우에만 사용 가능)
- 혼합선택 : 전진선택(변수를 모델에 추가) -> 후진 선택 (추가된 모델을 평가하여 유효하지 않은 변수 제거)
모델 적합
- RSE, R^2을 사용하여 평가
예측
- 추정된 모델의 축소 가능한 오차가 최소여야하며 신뢰구간을 계산하여 추정된 모델이 실제와 얼마나 가까운지 확인
- 실제 표면에 대한 최상의 선형 근사를 추정
- 신뢰구간으로 불확실성을 수량화 (축소 가능, 불가능 오차를 모두 포함하고 있어 예측구간이 신뢰구간보다 넓음)
3. 회귀모델에서 다른 고려할 사항
3.1 질적 설명변수
- 회귀모델의 설명 변수는 양적 설명변수 뿐 아니라 질적 설명변수가 될 수 있음
- 지시변수(indicator variable), 가변수(dummy variable)
- 질적 설명변수의 레벨 수가 2인 경우 ex) 성별: 남자/여자
지시변수 or 가변수
회귀식
- 질적 설명변수의 레벨 수가 3 이상인 경우 ex) 인종: 백인/황인/흑인
가변수 (가변수의 개수는 항상 레벨수-1)
회귀식
- 질적 설명변수의 레벨 수가 2인 경우 ex) 성별: 남자/여자
- F-검정은 가변수 코딩에 의존적이지 않다
3.2 선형모델의 확장
- 선형회귀의 중요한 가정 : X와 Y 사이의 관계는 가산적이고 선형적이다.
- 가산적(additive) : 변수간 독립적
- 선형적 : X의 변화에 Y는 일정하게 변화한다 (기울기가 특정 X값에 대해서 변화하는 것이 아닌 일정)
가산성 가정의 제거
- 선형모델의 가정 : 변수간 독립적이어야한다. -> 하지만 현실에서는 이런 모델이 맞지 않을 수 있음
- 상호작용 효과 (시너지 효과) : 변수끼리 영향을 받기 때문에 변수들간의 상호작용을 고려한다
- 상호작용 항을 포함하려면 관련된 변수는 p-value가 유의하지 않더라도 모델에 포함해야한다
- 두 변수가 서로 영향을 주지 않는다면 -> 그래프 상의 두 직선이 평행하다
비선형적 관계
- X, Y사이의 관계가 비선형적 일 수 있음 => 다항식회귀를 사용하여 확장
- 차수가 높아질수록 그래프가 구불구불해진다 -> 과적합??
3.3 잠재적 문제
- X, Y의 비선형성
- 오차항들의 상관성
- 오차항의 상수가 아닌 분산
- 이상치
- 레버리지가 높은 관측치
- 공선성
데이터의 비선형성
- 데이터가 비선형적 관계를 가지고 있을 때 선형회귀모델에 적합한다면 많은 오차가 발생할 것임
- X에 대한 잔차 그래프에 패턴이 존재 -> 선형회귀 모델에 문제가 있음을 의미한다
- 이럴 경우 접근법 : logX, (X)^1/2, X^2 과 같이 X들을 비선형적으로 변환하여 회귀모델에 적용
오차항의 상관성
- 선형회귀의 중요한 가정 : 오차항들이 서로 상관되어있지 않다
- 오차들 사이에 상관성이 있다면
- 실제 표준 오차를 과소추정
- 실질적 신뢰구간, 예측구간이 좁아짐
- 모델에 대한 근거가 부족한 확신을 가짐
- 시계열 데이터에서 자주 발생한다. -> 모델의 잔차를 함수로 그렸을 떄 패턴이 존재한다
오차항의 상수가 아닌 분산
- 선형회귀의 중요한 가정 : 오차항의 분산은 상수이다
- 하지만 많은 경우 오차항의 분산은 상수가 아님
- logY, (Y)^2를 사용하여 Y를 변환하는 방법이 있음
이상치(outlier)
- 관측값이 모델이 예측한 값과 크게 다른 경우
- RSE의 값을 높힌다 -> R^2의 값을 낮춘다
- 모델의 결함을 나타낼 수 있으므로 신중하게 처리
레버리지가 높은 관측치
- xi가 보통 수준과 다른 경우
- 이상치 vs 레버리지가 높은 관측치
- 이상치 : y가 보통의 수준과 다른 경우 -> 이 때의 x는 보통의 수준임 (그래프의 20)- 레버리지가 높은 관측치 : x가 보통 수준과 다르다. (그래프의 41) - 레버리지가 높은 관측치를 제외하는 것이 이상치를 제외하는것보다 최소제곱선에 더 큰 영향을 미친다
- 보통의 x와 다른 범위에 있는 관측치를 찾으면 된다
- 레버리지 통계량 계산 (단순선형회귀)
공선성(Collinearity)
- 설명변수들이 서로 밀접하게 상관되어있는 경우
- 가설검정의 능력이 줄어든다
- 설명변수들간의 상관관계를 살펴보고 문제가 있는 변수들 중 하나를 제거
- 공선성을 가지는 변수들을 단일 변수로 결합 -> 새로운 변수를 만든다
728x90
반응형
'통계 > ISLP' 카테고리의 다른 글
[ISLP Chapter 7] 기저함수 (0) | 2024.03.06 |
---|---|
[ISLP Chapter 7] 계단함수 (0) | 2024.03.06 |
[ISLP Chapter 7] 다항식 회귀 (0) | 2024.03.05 |
[ISLP Chapter 4] 분류 (1) | 2024.02.13 |
[ISLP Chapter 2] 통계학습 (1) | 2024.01.24 |