목록GLM (3)
Stats & AI tech blog - '일단 시도함'
1. Linear ModelResiduals : 예측 값과 실제 값의 차이로 작을수록 좋은 모델CoefficientsEstimate : 변수들에 부여된 가중치Std.Error : 추정치의 정확도를 보여주고 t-value 계산에 쓰임t-value & Pr(>|t|) : coefficent가 0과 비교하여 유의미하게 다른지 검정, Pr은 유의 수준Performance MeasuresResidual Standard Error : 잔차의 표준편차, 작을수록 좋다Multiple / Adjusted R-square : 모델로 설명 가능한 분산의 양을 뜻함. Adjusted는 변수 개수를 함께 고려한 값으로 Multiple Regression에서 유용. 전반적인 적합도를 요약하지만 모델의 타당성을 말하기에는 불충분하..
1. 일반화 선형모형 (GLM)이란?데이터가 정규 분포가 아닌 임의의 다른 분포를 따르는 경우에 적용할 수 있는 확장된 선형 모형이다.대표적으로는 로지스틱 회귀, 포아송 회귀 등이 있다. 먼저 정규분포를 가정하는 ordinary linear model에서는 관찰된 예측 변수의 선형 조합으로 반응 변수의 기댓값을 예측한다. 즉, 예측 변수의 일정한 변화는 반응 변수의 일정한 변화를 야기하고 이런 방법은 반응 변수가 정규 분포의 특징을 가지는 경우에 한하여 유용하다고 할 수 있다. ex) 특정 근사치로부터 어느 방향으로든 다양한 값을 가지는 경우예측 변수의 변화에 비해 반응 변수의 변화가 상대적으로 작은 경우 하지만, 데이터가 정규 분포를 따르지 않고 아래와 같은 특징을 가지는 경우에는 확장된 선형 모델인..
1. 로지스틱 회귀분석이란?종속변수가 범주형(이항, 다항)인 경우에 사용하는 일반화 선형모형(generalized linear model)의 한 종류이다. 어떤 사건 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률을 예측하여 0.5이상인 경우 발생, 0.5 이하인 경우 미발생으로 예측하는 것으로 일종의 분류(classification) 기법으로 볼 수 있다.흔히 로지스틱 회귀분석은 종속변수가 이항인 경우를 지칭하고, 종속변수의 범주가 두 개 이상인 경우를 다항 로지스틱 회귀라고 한다. 2. 기본 가정1) 대표본2) 종속변수가 이항분포3) 종속변수와 독립변수 간의 로짓 선형 관계4) 오차항의 독립성5) 다중공선성이 없다 3. 로지스틱 함수로지스틱 함수는 종속변수의 결과 값이 [0,1] 사이에 있..