728x90

통계 6

[ISLP Chapter 7] 조각별 다항식 회귀 (Piecewise polynomial regression)

기존의 다항식 회귀 : 데이터에 전역적 구조로 모델을 적합 (== x의 모든 구간에 대한 하나의 모델 적합) 조각별 다항식 회귀 : 구간별 데이터에 대해서 각각의 모델을 적합 (== x의 구간을 나누어 각각의 모델 적합) * c : 매듭점(knot)- c에 따라서 데이터의 구간을 나눈다- K개의 매듭점 --> K+1개의 구간을 생성 c = 50을 기준으로 두 구간으로 나눈다각각의 구간에 대한 모델을 적합매듭점 구간에 jump(불연속적인) 구간이 생긴다 모델을 유연하게 만들기 위해서 차수를 늘리는게 아닌 매듭의 수를 늘리는 방법을 사용한다

통계/ISLP 2024.03.09

[ISLP Chapter 7] 기저함수

기저함수란? 공간상에서 일어나는 운동을 표현하기 위한 기본적인 함수들의 집합이고 그것을 이용해서 공간상에서 일어나는 모든 운동을 표현할 수 있음. (https://www.gpgstudy.com/forum/viewtopic.php?highlight=&t=2728)기저함수는 특정한 규칙에 따라 만들어지는 함수의 열(sequence)로서 충분히 많은 수의 함수가 있으면 어떤 모양의 함수라도 비슷하게 흉내낼 수 있는 것을 말한다. (https://datascienceschool.net/03%20machine%20learning/06.02%20%EA%B8%B0%EC%A0%80%ED%95%A8%EC%88%98%20%EB%AA%A8%ED%98%95%EA%B3%BC%20%EA%B3%BC%EC%B5%9C%EC%A0..

통계/ISLP 2024.03.06

[ISLP Chapter 7] 계단함수

다항식 회귀모델에서는 데이터 전체(전역)에 대한 하나의 통합된 모델을 생성하였다. 하지만 이는 데이터의 다양한 패턴과 특징을 반영하는데에 한계가 있다. 따라서 계단함수를 사용하여 데이터의 구간(지역)을 나누어 각 구간마다 다르게 적합한다. 계단함수① 절단점(cut point, c)을 사용하여 연속형 변수 -> 순서범주형 변수로 변환* I( ) (지시함수, Indecator function) : X가 괄호 안의 범위에 해당하면 1, else 0을 반환한다.k개의 절단점을 사용하여 K+1개(C0 ~ CK)의 변수를 만들어낸다.C0 ~ CK를 모두 더하면 항상 1각 지시함수가 1인 경우(True인 경우) 특정 상수 값으로 xi를 할당 ② 최소제곱 적합 xi가 속하는 구간이 선택되고, ..

통계/ISLP 2024.03.06

[ISLP Chapter 7] 다항식 회귀

표준적 선형모델 다항식 함수 (표준적 선형 모델의 확장): xi, xi^2, xi^3 ... xi^d 을 설명 변수로 가지는 표준 선형 모델 (d↑, 비선형성↑) * 다항식함수는 선형 모델인데 왜 곡선이 생성됨???- '다항식 회귀는 선형적 모델'에서 '선형적'의 의미는 '선형적 결합(상수*설명변수의 합)'이라는 의미임. 다시말해서 종속변수를 나타낼 때 선형적 결합으로 표현한다는 의미이다. 곡선의 형태임- 선형 회귀의 '선형성' 가정은 X와 Y의 관계가 선형적이라는 것을 의미함 (직선 형태) 파라미터 추정: 최소제곱회귀를 사용하여 추정* '최소제곱' vs '최소제곱회귀'- 최소제곱 : 관측값들과 예측값의 잔차(설명 가능한 오차)를 최소화 하는 방법- 최소제곱회귀 : 최소제곱법을..

통계/ISLP 2024.03.05

[통계] 표준오차 (Standard Error, SE)

표준오차 (Standard Error, SE) SE = s/√n *s : 추정치의 편차 : 모집단에서 랜덤하게 추출된 표본평균이 각 표본평균의 평균에 대해서 흩어진 정도 표준편차 (Standard Deviation, SD) SD = σ/√n : 자료(관측치)가 평균에 대해서 흩어진 정도 결론 표준 오차와 표준 편차를 혼용해서 사용하는 경우가 있으나 표준 오차는 표본 통계량의 변동성을 설명하며 이는 표본 평균이 전체 모집단의 평균을 추정하는 데 얼마나 정확한지를 알려준다. 표준 편차는 집단의 평균으로부터 데이터가 얼마나 퍼져있는지를 확인할 수 있다.

통계/기본개념 2024.03.05

[ISLP Chapter 2] 통계학습

일반적인 형태Y = f(X)+εf : 알려지지 않은 고정함수Y : 종속변수, 결과변수 등등X : 독립변수, 설명변수 등등ε : 랜덤 오차항 (X와 독립적, 평균 = 0) 1. 통계학습이란?: f를 추정하는 일련의 기법들을 말한다 1.1 f를 추정하는 이유는?: 대표적으로 예측과 추론을 수행하기 위함 예측(Prediction) -> 축소가능 오차를 최소로 하는 f를 추정하는 것이 목표 Ŷ = f̂(X)ε 의 평균이 0이어서 생략f̂  : 블랙박스로 취급 한다. f̂ 이 Y에 대한 정확한 예측을 수행한다면 모델의 형태에는 신경쓰지 않는다예측 정확성축소가능(reducible) 오차 : f를 다시 추정해나가면서 개선 가능축소불가능(irreducible) 오차 : 개선 ..

통계/ISLP 2024.01.24
728x90
반응형