통계/ISLP

[ISLP Chapter 3] 선형회귀

notty 2024. 1. 27. 11:46
728x90

**참고  Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.


선형회귀 

  • 주로 양적 반응변수를 예측
  • 많은 통계학습 방법의 기반

1. 단순선형회귀

: 하나의 설명변수(X)로 Y를 예측한다 (X와 Y사이에 선형적 상관관계가 있다고 가정)

 

  • ~ : '근사적으로 모델링 된'을 의미
  • β0 : 알려지지 않은 상수, 절편(intercept)
  • β1 : 알려지지 않은 상수, 기울기

 

추정식

  • ŷ  : X = x 일때 Y의 예측값(추정값)
  • ˆβ0, ˆβ1 : 예측된 β0, β1

1.1 계수추정

: 관측 데이터를 이용하여 알려지지 않은 β0, β1을 추정한다

  • 관측된 n개의 데이터 포인트에 최대한 가깝게 되도록 하는 β0, β1 찾고자한다
  • 가까움 측정 방법 : 최소제곱기준 최소화
    최소제곱법 -> *잔차제곱합(RSS, Residual Sum of Squares)이 최소인  β0, β1을 선택한다
  • RSS가 최소일 때의 ˆβ0, ˆβ1를 구한다

  • ȳ : 표본평균
  • x̄ : 표본평균

 

*잔차제곱합 (RSS, Residual Sum of Squares)

  • e(잔차) = (y - ŷ)
  • RSS = (e1)^2 + (e2)^2 + ... + (en)^2

1.2 계수 추정값의 정확도 평가

  • f가 선형모델로 근사되는 경우 ε으로 여러가지 한계를 수반
  • ε은 보통 X와 독립이라고 가정한다

 

모회귀선과 최소제곱선

  • 모회귀선 : 모집단에 대해 참인 회귀선
  • 최소제곱선 : RSS이 가장 작을 때의 회귀식
  • 표본의 정보로 모집단의 특징을 파악
  • 최소제곱선은 적용 데이터에 따라 약간씩 변하지만 모회귀선은 변하지 않는다

 

모평균 추정 

  • 관측 데이터로부터 모평균(μ) 추정 가능 -> 추정된 모평균 (^ μ)
  • 편향(bias) 개념에서의 추정 : 표본평균으로 모평균(μ)을 추정한다면 ^μ은 평균적으로 μ 과 동일하다고 기대되는 점에서 이 추정값은 편향되지 않은 것이라고 할 수 있음
  • 더 많은 관측치로부터 추정을 한다면 ^μ은 μ 과 동일한 값을 가진다 ( β0, β1에 대해서도 동일한 원리가 적용된다)

 

관측치가 적은 경우 ^μ이 잘 추정되었는지 확인하기 위해서 *표준오차(SE, Standard Error)를 계산한다

  • σ^2 = Var( ε ), 각 관측치에 대한 오차 ε가 공통의 분산 σ^2과 무상관하다는 가정이 필요
  • σ^2가 주어지지 않아 추정해야함, σ의 추정치는 잔차 표준오차(RSE, Residual Standard Error)
    RSE = (RSS/(n-2))^1/2

 

*표준오차(SE, Standard Error)

참고 : https://www.youtube.com/watch?v=kNHrOEavGuI

  • 표준오차는 표준편차와 비슷한 원리이다. 표준 편차는 (분산)^1/2으로 평균에서 떨어진 정도
  • 표준오차 : 표본집단들 간의 편차
  • 표준편차 : 측정 집단 내의 편차
  • 표준오차는 n이 증가함에 따라 줄어든다

 

신뢰구간

  • β1의 95% 신뢰구간 ( β0도 동일)
    - 광고데이터에서 β0의 95% 신뢰구간이 [6.137, 7.935], β1의 95% 신뢰구간이 [0.042, 0.053]인 경우 광고를 전혀 하지 않을 경우 평균 판매량이 6137, 7935 사이일 것으로 예상되며 1000달러를 투자할 때마다 평균 42~53대 사이만큼 증가할 것이다.

 

가설검정

1.3 모델의 정확도 평가

  • 선형회귀적합의 질ㄹ은 보통 잔차표준오차(RSE)와 R^2 통계량을 사용하여 평가

잔차표준오차(RSE, Residual Standard Error)

  • 각 관측치에 오차항 ( ε )이 관련되어있음 -> X로부터 Y를 정확하게 예측 불가
  • 잔차표준오차(RSE, Residual Standard Error) : ε의 표준편차에 대한 추정값
    => Y값이 실제 회귀선으로부터 벗어나게 될 평균값을 의미
  • 데이터에 대한 모델의 적합성결여(lack of fit)을 나타내는 절대적 측도
  • RSE가 작을수록 잘 적합

 

R^2

  • X와 Y 사이의 선형상관관계레 대한 측도
  • X에 따른 Y의 변동비율을 측정한다
  • 0 <= R^2 <= 1(1에 가까울수록 Y의 변동 중 많은 부분이 회귀에 의해 설명되었음을 의미)
  • RSE보다 해석이 쉬움
  • (상관계수)^2 == R^2

2. 다중선형회귀

단순성형회귀 : 하나의 X 로 Y 를 추정

다중선형회귀 : 두개 이상의 X로 Y 를 추정

  • 두개 이상의 설명변수가 있는 경우 
    • 각각의 설명변수마다 단순선형회귀 모델을 사용하는 경우 : 다른 X들을 고려하지 않는 방법이다
    • 다중선형회귀 모델을 사용하는 경우 : X들을 직접 수용할 수 있도록 한다 (더 나은 방법임)

 

2.1 회귀계수의 추정

  • 단순선형회귀와 비슷 ˆβ0, ˆβ1 : 예측된 β0, β1
  • 알려지지 않은 β0, β1, β2, ... , βn을 추정
  • 최소제곱법으로 추정 (RSS 최소화)

 

단순선형회귀와 다중선형회귀 계수 추정

  • 같은 X들에 대해서 다중회귀를 수행 했을 때의 추정계수와 단순선형회귀를 수행했을 때의 계수는 다를 수 있음
  • 단순선형회귀 : X가 하나여서 X에 대한 Y의 관계를 잘 나타내는 계수로 추정
  • 다중선형회귀 : 두개 이상의 X를 사용하여 계수에는 Y와의 관계, X들 끼리의 변동성을 고려한 값이 들어감

 

유의하지 않은 상관성

  • 변수들끼리의 상관성이 존재하는 경우 -> 의미 없는 상관관계 발생 가능성이 있음

2.2 몇 가지 중요한 질문

반응변수와 설명변수 사이에 상관관계가 있는가?

  • F-value를 고려하여 적합성 검정
    • t-value :
      - 각 설명변수의 유의성
      - 특정 변수의 계수가 유의한지를 평가 (각 변수의 계수가 Y에 미치는 영향)
    • F-value :
      - 모델의 유의성 평가
      - 변수 선택시 전체 모델의 유의성을 고려하여 가장 적절한 변수 조합을 선택

 

중요 변수의 결정

  • 전진선택 : null model -> 변수를 추가 (현재 상황에서 최선의 선택, 그리디)
  • 후진선택 : 모든 변수를 가진 모델 -> 변수를 제거 (p > n인 경우에만 사용 가능)
  • 혼합선택 : 전진선택(변수를 모델에 추가) -> 후진 선택 (추가된 모델을 평가하여 유효하지 않은 변수 제거)

 

모델 적합

  • RSE, R^2을 사용하여 평가

 

예측

  • 추정된 모델의 축소 가능한 오차가 최소여야하며 신뢰구간을 계산하여 추정된 모델이 실제와 얼마나 가까운지 확인
  • 실제 표면에 대한 최상의 선형 근사를 추정
  • 신뢰구간으로 불확실성을 수량화 (축소 가능, 불가능 오차를 모두 포함하고 있어 예측구간이 신뢰구간보다 넓음)

3. 회귀모델에서 다른 고려할 사항

3.1 질적 설명변수

  • 회귀모델의 설명 변수는 양적 설명변수 뿐 아니라 질적 설명변수가 될 수 있음
  • 지시변수(indicator variable), 가변수(dummy variable)
    • 질적 설명변수의 레벨 수가 2인 경우 ex) 성별: 남자/여자

      지시변수 or 가변수

      회귀식
    • 질적 설명변수의 레벨 수가 3 이상인 경우 ex) 인종: 백인/황인/흑인

      가변수 (가변수의 개수는 항상 레벨수-1)

      회귀식
  • F-검정은 가변수 코딩에 의존적이지 않다

3.2 선형모델의 확장

  • 선형회귀의 중요한 가정 : X와 Y 사이의 관계는 가산적이고 선형적이다. 
    • 가산적(additive) : 변수간 독립적
    • 선형적 : X의 변화에 Y는 일정하게 변화한다 (기울기가 특정 X값에 대해서 변화하는 것이 아닌 일정)

 

가산성 가정의 제거

  • 선형모델의 가정 : 변수간 독립적이어야한다. -> 하지만 현실에서는 이런 모델이 맞지 않을 수 있음
  • 상호작용 효과 (시너지 효과) : 변수끼리 영향을 받기 때문에 변수들간의 상호작용을 고려한다
  • 상호작용 항을 포함하려면 관련된 변수는 p-value가 유의하지 않더라도 모델에 포함해야한다
  • 두 변수가 서로 영향을 주지 않는다면 ->  그래프 상의 두 직선이 평행하다

 

비선형적 관계

  • X, Y사이의 관계가 비선형적 일 수 있음 => 다항식회귀를 사용하여 확장
  • 차수가 높아질수록 그래프가 구불구불해진다 -> 과적합??

3.3 잠재적 문제

  1. X, Y의 비선형성
  2. 오차항들의 상관성
  3. 오차항의 상수가 아닌 분산
  4. 이상치
  5. 레버리지가 높은 관측치
  6. 공선성

데이터의 비선형성

  • 데이터가 비선형적 관계를 가지고 있을 때 선형회귀모델에 적합한다면 많은 오차가 발생할 것임
  • X에 대한 잔차 그래프에 패턴이 존재 -> 선형회귀 모델에 문제가 있음을 의미한다
  • 이럴 경우 접근법 : logX, (X)^1/2, X^2 과 같이 X들을 비선형적으로 변환하여 회귀모델에 적용

 

오차항의 상관성

  • 선형회귀의 중요한 가정 : 오차항들이 서로 상관되어있지 않다
  • 오차들 사이에 상관성이 있다면
    • 실제 표준 오차를 과소추정
    • 실질적 신뢰구간, 예측구간이 좁아짐
    • 모델에 대한 근거가 부족한 확신을 가짐
  • 시계열 데이터에서 자주 발생한다. -> 모델의 잔차를 함수로 그렸을 떄 패턴이 존재한다

 

오차항의 상수가 아닌 분산

  • 선형회귀의 중요한 가정 : 오차항의 분산은 상수이다
  • 하지만 많은 경우 오차항의 분산은 상수가 아님
  • logY, (Y)^2를 사용하여 Y를 변환하는 방법이 있음

 

이상치(outlier)

  • 관측값이 모델이 예측한 값과 크게 다른 경우
  • RSE의 값을 높힌다 -> R^2의 값을 낮춘다
  • 모델의 결함을 나타낼 수 있으므로 신중하게 처리

 

레버리지가 높은 관측치

  • xi가 보통 수준과 다른 경우
  • 이상치 vs 레버리지가 높은 관측치
    - 이상치 : y가 보통의 수준과 다른 경우 -> 이 때의 x는 보통의 수준임 (그래프의 20)- 레버리지가 높은 관측치 : x가 보통 수준과 다르다. (그래프의 41)
  • 레버리지가 높은 관측치를 제외하는 것이 이상치를 제외하는것보다 최소제곱선에 더 큰 영향을 미친다
  • 보통의 x와 다른 범위에 있는 관측치를 찾으면 된다
  • 레버리지 통계량 계산 (단순선형회귀)

 

공선성(Collinearity)

  • 설명변수들이 서로 밀접하게 상관되어있는 경우
  • 가설검정의 능력이 줄어든다
  • 설명변수들간의 상관관계를 살펴보고 문제가 있는 변수들 중 하나를 제거
  • 공선성을 가지는 변수들을 단일 변수로 결합 -> 새로운 변수를 만든다
728x90
반응형

'통계 > ISLP' 카테고리의 다른 글

[ISLP Chapter 7] 기저함수  (0) 2024.03.06
[ISLP Chapter 7] 계단함수  (0) 2024.03.06
[ISLP Chapter 7] 다항식 회귀  (0) 2024.03.05
[ISLP Chapter 4] 분류  (1) 2024.02.13
[ISLP Chapter 2] 통계학습  (1) 2024.01.24