**참고 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.
선형회귀
주로 양적 반응변수를 예측
많은 통계학습 방법의 기반
1. 단순선형회귀
: 하나의 설명변수(X)로 Y를 예측한다 (X와 Y사이에 선형적 상관관계가 있다고 가정)
~ : '근사적으로 모델링 된'을 의미
β0 : 알려지지 않은 상수, 절편(intercept)
β1 : 알려지지 않은 상수, 기울기
추정식
ŷ : X = x 일때 Y의 예측값(추정값)
ˆβ0, ˆβ1 : 예측된 β0, β1
1.1 계수추정
: 관측 데이터를 이용하여 알려지지 않은 β0, β1을 추정한다
관측된 n개의 데이터 포인트에 최대한 가깝게 되도록 하는 β0, β1 찾고자한다
가까움 측정 방법 : 최소제곱기준 최소화 최소제곱법 -> *잔차제곱합(RSS, Residual Sum of Squares)이 최소인β0, β1을 선택한다
RSS가 최소일 때의 ˆβ0, ˆβ1를 구한다
ȳ : 표본평균
x̄ : 표본평균
*잔차제곱합 (RSS, Residual Sum of Squares)
e(잔차) = (y -ŷ)
RSS = (e1)^2 + (e2)^2 + ... + (en)^2
1.2 계수 추정값의 정확도 평가
f가 선형모델로 근사되는 경우 ε으로 여러가지 한계를 수반
ε은 보통 X와 독립이라고 가정한다
모회귀선과 최소제곱선
모회귀선 : 모집단에 대해 참인 회귀선
최소제곱선 : RSS이 가장 작을 때의 회귀식
표본의 정보로 모집단의 특징을 파악
최소제곱선은 적용 데이터에 따라 약간씩 변하지만 모회귀선은 변하지 않는다
모평균 추정
관측 데이터로부터 모평균(μ) 추정 가능 -> 추정된 모평균 (^ μ)
편향(bias) 개념에서의 추정 : 표본평균으로 모평균(μ)을 추정한다면 ^μ은 평균적으로 μ 과 동일하다고 기대되는 점에서 이 추정값은 편향되지 않은 것이라고 할 수 있음
더 많은 관측치로부터 추정을 한다면 ^μ은 μ 과 동일한 값을 가진다 ( β0, β1에 대해서도 동일한 원리가 적용된다)
관측치가 적은 경우 ^μ이 잘 추정되었는지 확인하기 위해서 *표준오차(SE, Standard Error)를 계산한다
σ^2 = Var( ε ), 각 관측치에 대한 오차 ε가 공통의 분산 σ^2과 무상관하다는 가정이 필요
σ^2가 주어지지 않아 추정해야함, σ의 추정치는 잔차 표준오차(RSE, Residual Standard Error) RSE = (RSS/(n-2))^1/2
표준오차는 표준편차와 비슷한 원리이다. 표준 편차는 (분산)^1/2으로 평균에서 떨어진 정도
표준오차 : 표본집단들 간의 편차
표준편차 : 측정 집단 내의 편차
표준오차는 n이 증가함에 따라 줄어든다
신뢰구간
β1의 95% 신뢰구간 ( β0도 동일)
- 광고데이터에서 β0의 95% 신뢰구간이 [6.137, 7.935], β1의 95% 신뢰구간이 [0.042, 0.053]인 경우 광고를 전혀 하지 않을 경우 평균 판매량이 6137, 7935 사이일 것으로 예상되며 1000달러를 투자할 때마다 평균 42~53대 사이만큼 증가할 것이다.
가설검정
1.3 모델의 정확도 평가
선형회귀적합의 질ㄹ은 보통 잔차표준오차(RSE)와 R^2 통계량을 사용하여 평가
잔차표준오차(RSE, Residual Standard Error)
각 관측치에 오차항 ( ε )이 관련되어있음 -> X로부터 Y를 정확하게 예측 불가
잔차표준오차(RSE, Residual Standard Error) : ε의 표준편차에 대한 추정값 => Y값이 실제 회귀선으로부터 벗어나게 될 평균값을 의미
데이터에 대한 모델의 적합성결여(lack of fit)을 나타내는 절대적 측도
RSE가 작을수록 잘 적합
R^2
X와 Y 사이의 선형상관관계레 대한 측도
X에 따른 Y의 변동비율을 측정한다
0 <= R^2 <= 1(1에 가까울수록 Y의 변동 중 많은 부분이 회귀에 의해 설명되었음을 의미)
RSE보다 해석이 쉬움
(상관계수)^2 == R^2
2. 다중선형회귀
단순성형회귀 : 하나의 X 로 Y 를 추정
다중선형회귀 : 두개 이상의 X로 Y 를 추정
두개 이상의 설명변수가 있는 경우
각각의 설명변수마다 단순선형회귀 모델을 사용하는 경우 : 다른 X들을 고려하지 않는 방법이다
다중선형회귀 모델을 사용하는 경우 : X들을 직접 수용할 수 있도록 한다 (더 나은 방법임)
2.1 회귀계수의 추정
단순선형회귀와 비슷 ˆβ0, ˆβ1 : 예측된 β0, β1
알려지지 않은 β0, β1, β2, ... , βn을 추정
최소제곱법으로 추정 (RSS 최소화)
단순선형회귀와 다중선형회귀 계수 추정
같은 X들에 대해서 다중회귀를 수행 했을 때의 추정계수와 단순선형회귀를 수행했을 때의 계수는 다를 수 있음
단순선형회귀 : X가 하나여서 X에 대한 Y의 관계를 잘 나타내는 계수로 추정
다중선형회귀 : 두개 이상의 X를 사용하여 계수에는 Y와의 관계, X들 끼리의 변동성을 고려한 값이 들어감
유의하지 않은 상관성
변수들끼리의 상관성이 존재하는 경우 -> 의미 없는 상관관계 발생 가능성이 있음
2.2 몇 가지 중요한 질문
반응변수와 설명변수 사이에 상관관계가 있는가?
F-value를 고려하여 적합성 검정
t-value : - 각 설명변수의 유의성 - 특정 변수의 계수가 유의한지를 평가 (각 변수의 계수가 Y에 미치는 영향)
F-value : - 모델의 유의성 평가 - 변수 선택시 전체 모델의 유의성을 고려하여 가장 적절한 변수 조합을 선택
중요 변수의 결정
전진선택 : null model -> 변수를 추가 (현재 상황에서 최선의 선택, 그리디)
후진선택 : 모든 변수를 가진 모델 -> 변수를 제거 (p > n인 경우에만 사용 가능)
혼합선택 : 전진선택(변수를 모델에 추가) -> 후진 선택 (추가된 모델을 평가하여 유효하지 않은 변수 제거)
모델 적합
RSE, R^2을 사용하여 평가
예측
추정된 모델의 축소 가능한 오차가 최소여야하며 신뢰구간을 계산하여 추정된 모델이 실제와 얼마나 가까운지 확인
실제 표면에 대한 최상의 선형 근사를 추정
신뢰구간으로 불확실성을 수량화 (축소 가능, 불가능 오차를 모두 포함하고 있어 예측구간이 신뢰구간보다 넓음)
3. 회귀모델에서 다른 고려할 사항
3.1 질적 설명변수
회귀모델의 설명 변수는 양적 설명변수 뿐 아니라 질적 설명변수가 될 수 있음
지시변수(indicator variable), 가변수(dummy variable)
질적 설명변수의 레벨 수가 2인 경우 ex) 성별: 남자/여자
지시변수 or 가변수 회귀식
질적 설명변수의 레벨 수가 3 이상인 경우 ex) 인종: 백인/황인/흑인
가변수 (가변수의 개수는 항상 레벨수-1) 회귀식
F-검정은 가변수 코딩에 의존적이지 않다
3.2 선형모델의 확장
선형회귀의 중요한 가정 : X와 Y 사이의 관계는 가산적이고 선형적이다.
가산적(additive) : 변수간 독립적
선형적 : X의 변화에 Y는 일정하게 변화한다 (기울기가 특정 X값에 대해서 변화하는 것이 아닌 일정)
가산성 가정의 제거
선형모델의 가정 : 변수간 독립적이어야한다. -> 하지만 현실에서는 이런 모델이 맞지 않을 수 있음
상호작용 효과 (시너지 효과) : 변수끼리 영향을 받기 때문에 변수들간의 상호작용을 고려한다
상호작용 항을 포함하려면 관련된 변수는 p-value가 유의하지 않더라도 모델에 포함해야한다
두 변수가 서로 영향을 주지 않는다면 -> 그래프 상의 두 직선이 평행하다
비선형적 관계
X, Y사이의 관계가 비선형적 일 수 있음 => 다항식회귀를 사용하여 확장
차수가 높아질수록 그래프가 구불구불해진다 -> 과적합??
3.3 잠재적 문제
X, Y의 비선형성
오차항들의 상관성
오차항의 상수가 아닌 분산
이상치
레버리지가 높은 관측치
공선성
데이터의 비선형성
데이터가 비선형적 관계를 가지고 있을 때 선형회귀모델에 적합한다면 많은 오차가 발생할 것임
X에 대한 잔차 그래프에 패턴이 존재 -> 선형회귀 모델에 문제가 있음을 의미한다
이럴 경우 접근법 : logX, (X)^1/2, X^2 과 같이 X들을 비선형적으로 변환하여 회귀모델에 적용
오차항의 상관성
선형회귀의 중요한 가정 : 오차항들이 서로 상관되어있지 않다
오차들 사이에 상관성이 있다면
실제 표준 오차를 과소추정
실질적 신뢰구간, 예측구간이 좁아짐
모델에 대한 근거가 부족한 확신을 가짐
시계열 데이터에서 자주 발생한다. -> 모델의 잔차를 함수로 그렸을 떄 패턴이 존재한다
오차항의 상수가 아닌 분산
선형회귀의 중요한 가정 : 오차항의 분산은 상수이다
하지만 많은 경우 오차항의 분산은 상수가 아님
logY, (Y)^2를 사용하여 Y를 변환하는 방법이 있음
이상치(outlier)
관측값이 모델이 예측한 값과 크게 다른 경우
RSE의 값을 높힌다 -> R^2의 값을 낮춘다
모델의 결함을 나타낼 수 있으므로 신중하게 처리
레버리지가 높은 관측치
xi가 보통 수준과 다른 경우
이상치 vs 레버리지가 높은 관측치
- 이상치 : y가 보통의 수준과 다른 경우 -> 이 때의 x는 보통의 수준임 (그래프의 20)- 레버리지가 높은 관측치 : x가 보통 수준과 다르다. (그래프의 41)
레버리지가 높은 관측치를 제외하는 것이 이상치를 제외하는것보다 최소제곱선에 더 큰 영향을 미친다