목록Statistics & AI/Regression (5)
Stats & AI tech blog - '일단 시도함'
이번 포스팅에서는 회귀모형 성능 평가 지표로 사용되는 손실함수(loss function)인 MAE, RMSE, MSE에 대해 알보겠다. 각각의 특징과 차이점에 대해 알아보고자 한다.1. MAE (Mean Absoluted Error) 예측값과 실제값의 차이의 절대값의 평균이다. $$MAE = \frac{1}{n}\sum^{n}_{i=1}|y_i=\hat{y_i}|$$ MSE, RMSE에 비해 이상치의 영향을 크게 받지 않는다. (모든 오차에 동일한 가중치를 부여)오차가 0인 지점에서 뾰족한 형태(첨점)를 띄며 미분 불가능하다. 2. MSE (Mean Squared Error)예측값과 실제값의 차이의 제곱의 평균이다. $$MSE = \frac{1}{n}\sum^{n}_{i=1}(y_i-\hat{y_i})^..
1. Linear ModelResiduals : 예측 값과 실제 값의 차이로 작을수록 좋은 모델CoefficientsEstimate : 변수들에 부여된 가중치Std.Error : 추정치의 정확도를 보여주고 t-value 계산에 쓰임t-value & Pr(>|t|) : coefficent가 0과 비교하여 유의미하게 다른지 검정, Pr은 유의 수준Performance MeasuresResidual Standard Error : 잔차의 표준편차, 작을수록 좋다Multiple / Adjusted R-square : 모델로 설명 가능한 분산의 양을 뜻함. Adjusted는 변수 개수를 함께 고려한 값으로 Multiple Regression에서 유용. 전반적인 적합도를 요약하지만 모델의 타당성을 말하기에는 불충분하..
비교 검정에서 관심 요인이 아닌 공변량의 효과를 함께 고려하기 위해 주로 ANCOVA 검정을 사용한다.다만, ANCOVA는 관심 요인과 공변량 간에 interaction이 없다는 가정 하에 이루어져야함에도 불구하고, 많은 연구자들이 interaction 여부 확인을 생략하고 ANCOVA를 진행하는 경우가 많다. 요인과 공변량 간에 상당히 큰 interaction이 존재할 경우, Moderated Regression(MODREG) 분석을 고려해볼 수 있다.MODREG는 그룹의 차이 크기가 공변량의 수준에 따라 어떻게 다른지 확인할 수 있다. 1. Moderated Regression (MODREG)란? 독립변수가 아닌 또 다른 변수(조절변수)가 독립변수와 종속변수 간의 효과를 중간에서 조절하는 경우 (즉..
1. 일반화 선형모형 (GLM)이란?데이터가 정규 분포가 아닌 임의의 다른 분포를 따르는 경우에 적용할 수 있는 확장된 선형 모형이다.대표적으로는 로지스틱 회귀, 포아송 회귀 등이 있다. 먼저 정규분포를 가정하는 ordinary linear model에서는 관찰된 예측 변수의 선형 조합으로 반응 변수의 기댓값을 예측한다. 즉, 예측 변수의 일정한 변화는 반응 변수의 일정한 변화를 야기하고 이런 방법은 반응 변수가 정규 분포의 특징을 가지는 경우에 한하여 유용하다고 할 수 있다. ex) 특정 근사치로부터 어느 방향으로든 다양한 값을 가지는 경우예측 변수의 변화에 비해 반응 변수의 변화가 상대적으로 작은 경우 하지만, 데이터가 정규 분포를 따르지 않고 아래와 같은 특징을 가지는 경우에는 확장된 선형 모델인..
1. 로지스틱 회귀분석이란?종속변수가 범주형(이항, 다항)인 경우에 사용하는 일반화 선형모형(generalized linear model)의 한 종류이다. 어떤 사건 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률을 예측하여 0.5이상인 경우 발생, 0.5 이하인 경우 미발생으로 예측하는 것으로 일종의 분류(classification) 기법으로 볼 수 있다.흔히 로지스틱 회귀분석은 종속변수가 이항인 경우를 지칭하고, 종속변수의 범주가 두 개 이상인 경우를 다항 로지스틱 회귀라고 한다. 2. 기본 가정1) 대표본2) 종속변수가 이항분포3) 종속변수와 독립변수 간의 로짓 선형 관계4) 오차항의 독립성5) 다중공선성이 없다 3. 로지스틱 함수로지스틱 함수는 종속변수의 결과 값이 [0,1] 사이에 있..