728x90

전체 글 57

[ISLP Chapter 7] 조각별 다항식 회귀 (Piecewise polynomial regression)

기존의 다항식 회귀 : 데이터에 전역적 구조로 모델을 적합 (== x의 모든 구간에 대한 하나의 모델 적합) 조각별 다항식 회귀 : 구간별 데이터에 대해서 각각의 모델을 적합 (== x의 구간을 나누어 각각의 모델 적합) * c : 매듭점(knot)- c에 따라서 데이터의 구간을 나눈다- K개의 매듭점 --> K+1개의 구간을 생성 c = 50을 기준으로 두 구간으로 나눈다각각의 구간에 대한 모델을 적합매듭점 구간에 jump(불연속적인) 구간이 생긴다 모델을 유연하게 만들기 위해서 차수를 늘리는게 아닌 매듭의 수를 늘리는 방법을 사용한다

통계/ISLP 2024.03.09

[ISLP Chapter 7] 기저함수

기저함수란? 공간상에서 일어나는 운동을 표현하기 위한 기본적인 함수들의 집합이고 그것을 이용해서 공간상에서 일어나는 모든 운동을 표현할 수 있음. (https://www.gpgstudy.com/forum/viewtopic.php?highlight=&t=2728)기저함수는 특정한 규칙에 따라 만들어지는 함수의 열(sequence)로서 충분히 많은 수의 함수가 있으면 어떤 모양의 함수라도 비슷하게 흉내낼 수 있는 것을 말한다. (https://datascienceschool.net/03%20machine%20learning/06.02%20%EA%B8%B0%EC%A0%80%ED%95%A8%EC%88%98%20%EB%AA%A8%ED%98%95%EA%B3%BC%20%EA%B3%BC%EC%B5%9C%EC%A0..

통계/ISLP 2024.03.06

[ISLP Chapter 7] 계단함수

다항식 회귀모델에서는 데이터 전체(전역)에 대한 하나의 통합된 모델을 생성하였다. 하지만 이는 데이터의 다양한 패턴과 특징을 반영하는데에 한계가 있다. 따라서 계단함수를 사용하여 데이터의 구간(지역)을 나누어 각 구간마다 다르게 적합한다. 계단함수① 절단점(cut point, c)을 사용하여 연속형 변수 -> 순서범주형 변수로 변환* I( ) (지시함수, Indecator function) : X가 괄호 안의 범위에 해당하면 1, else 0을 반환한다.k개의 절단점을 사용하여 K+1개(C0 ~ CK)의 변수를 만들어낸다.C0 ~ CK를 모두 더하면 항상 1각 지시함수가 1인 경우(True인 경우) 특정 상수 값으로 xi를 할당 ② 최소제곱 적합 xi가 속하는 구간이 선택되고, ..

통계/ISLP 2024.03.06

[ISLP Chapter 7] 다항식 회귀

표준적 선형모델 다항식 함수 (표준적 선형 모델의 확장): xi, xi^2, xi^3 ... xi^d 을 설명 변수로 가지는 표준 선형 모델 (d↑, 비선형성↑) * 다항식함수는 선형 모델인데 왜 곡선이 생성됨???- '다항식 회귀는 선형적 모델'에서 '선형적'의 의미는 '선형적 결합(상수*설명변수의 합)'이라는 의미임. 다시말해서 종속변수를 나타낼 때 선형적 결합으로 표현한다는 의미이다. 곡선의 형태임- 선형 회귀의 '선형성' 가정은 X와 Y의 관계가 선형적이라는 것을 의미함 (직선 형태) 파라미터 추정: 최소제곱회귀를 사용하여 추정* '최소제곱' vs '최소제곱회귀'- 최소제곱 : 관측값들과 예측값의 잔차(설명 가능한 오차)를 최소화 하는 방법- 최소제곱회귀 : 최소제곱법을..

통계/ISLP 2024.03.05

[통계] 표준오차 (Standard Error, SE)

표준오차 (Standard Error, SE) SE = s/√n *s : 추정치의 편차 : 모집단에서 랜덤하게 추출된 표본평균이 각 표본평균의 평균에 대해서 흩어진 정도 표준편차 (Standard Deviation, SD) SD = σ/√n : 자료(관측치)가 평균에 대해서 흩어진 정도 결론 표준 오차와 표준 편차를 혼용해서 사용하는 경우가 있으나 표준 오차는 표본 통계량의 변동성을 설명하며 이는 표본 평균이 전체 모집단의 평균을 추정하는 데 얼마나 정확한지를 알려준다. 표준 편차는 집단의 평균으로부터 데이터가 얼마나 퍼져있는지를 확인할 수 있다.

통계/기본개념 2024.03.05

[ISLP Chapter 4] 분류

**참고  Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.분류 (Classification)질적 반응변수(qualitative variable, categorical)인 경우 (양적 반응변수(quantitative variable)인 경우는 선형회귀)각 클래스에 대한 확률 계산 -> 가장 확률 높은 클래스로 분류 하는 과정선형회귀로 분류 => 효과적이지 않음선형회귀로 분류문제를 모델링하는것은 적절하지 않다. 이진분류의 경우dummy variable로 변형하..

통계/ISLP 2024.02.13

[통계] TSS, RSS, ESS

RSS의 비율이 적은 모델이 더 설명력이 있음 -> R^2지표의 원리 R^2 = (TSS - RSS) / TSS = 1 - (RSS / TSS) = ESS / TSS : 총 제곱합 중 설명된 체곱합의 비율 * y의 평균 : 종속변수의 평균은 해당 변수의 전반적인 중심 경향을 보이기 때문에 이를 통해 해당 변수의 변동성을 이해할 수 있음. TSS (총 제곱합, Total Sum of Square) 실제값과 y 평균값의 차이 : 종속변수 y의 총 변동량 RSS (잔차 제곱합, Residual Sum of Square) 회귀모델의 예측값과 실제값의 차이 : 회귀모델이 설명하지 못하는 오차 하이퍼 파리미터 조정, 다른 모델 선택 등으로 줄일 수 있음 -> 하지만 RSS말고 다른 요소들도 고려 필요 ESS (설명..

통계/기본개념 2024.02.06

[통계] 분산 (variance), 편향 (bias) trade-off

*에러 : 분산에 의한, 편향에 의한, 축소 불가능한 에러 이상적인 모델 : 분산이 작고 편향이 작은 robust한 모델 모델의 분산 (variance) : 해당 모델을 다른 훈련 데이터로 학습시키는 경우 f^이 달라지는 정도 모델의 복잡도와 관련이 있다. 분산이 높다 -> 모델이 훈련데이터에 overfitting 되어있다 => 모델이 과하게 복잡함 분산이 낮다 -> 모델의 복잡도가 적절하다. 그래프 유연한 모델일수록 MSE가 작아진다. 어느정도 유연해지면 그 이후는 MSE증가한다. 모델의 편향 (bias) : 복잡한 상관관계를 가지는 데이터를 덜복잡한 모델에 근사했을 경우 생기는 에러 데이터의 상관성과 연관되어있다 (얘를 들어, 현실의 데이터를 선형회귀에 근사하면 차이가 존재한다) 편향이 높다 : 선택..

통계/기본개념 2024.02.06

[파이토치 서포터즈] 순환신경망과 LSTM을 활용한 문장 분류 실습

파이토치를 활용하여 임베딩 학습 and 모델 학습하기 순환신경망 (Recurrent Neural Network, RNN) : 연속적인(sequencial) 데이터를 처리하는데 적합한 구조 현시점의 데이터가 이전까지에 영향을 받는 경우(독립적이지 않은 경우) 효과적으로 작동 문장 역시 시퀀스데이터임 -> 이전까지 단어들의 의미와 패턴을 고려하여 다음에 올 단어를 유추할 수 있음 모델 구조 ht, 은닉상태 : 각 시점마다 은닉상태의 형태를 다음 셀로 전달하여 다은 셀은 입력과 은닉상태를 계산한다 ot, 출력 xt, 입력 cell, 셀 : 입력을 받아 은닉상태와 계산하여 출력하는 노드 입력-출력 구조 일대다 구조 (One-to-Many) : 하나의 입력 시ㅁ퀀스에 대해 여러개의 출력값을 가진다 출력 시퉌스의 ..

[ISLP Chapter 3] 선형회귀

**참고  Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. An Introduction to Statistical Learning : with Applications in R. New York :Springer, 2013.선형회귀 주로 양적 반응변수를 예측많은 통계학습 방법의 기반1. 단순선형회귀: 하나의 설명변수(X)로 Y를 예측한다 (X와 Y사이에 선형적 상관관계가 있다고 가정) ~ : '근사적으로 모델링 된'을 의미β0 : 알려지지 않은 상수, 절편(intercept)β1 : 알려지지 않은 상수, 기울기 추정식ŷ  : X = x 일때 Y의 예측값(추정값)ˆβ0, ˆβ1 : 예측된 β0, β11..

통계/ISLP 2024.01.27
728x90
반응형