목록Statistics & AI (48)
Stats & AI tech blog - '일단 시도함'
1. 불균형 데이터란?우리가 관심있어하는 종속변수가 범주형 데이터일 때, 범주 항목의 비율이 불균형한 데이터를 말한다.관심있는 비정상 관측치가 정상 관측치보다 적은 경우가 실무에서는 굉장히 많다.임상 데이터에서 특정 질병의 정상 / 비정상 환자제조업에서 제품의 양품 / 불량품통신업에서 유지 / 이탈 고객금융업에서 정상 / 비정상 거래많은 비율을 차지하는 범주를 '다수 범주 (majority class)', 적은 비율을 차지하는 범주를 '소수 범주 (minority class)' 라고 한다. 2. 불균형 데이터 문제점불균형 데이터로 훈련한 모델은 소수 범주를 제대로 분류하지 못할 가능성이 크다.이런 경우 애초에 정상 데이터가 많으니까 모두 정상으로 분류하더라도 높은 정확도를 가지게 된다. (비정상은 하..
1. Linear ModelResiduals : 예측 값과 실제 값의 차이로 작을수록 좋은 모델CoefficientsEstimate : 변수들에 부여된 가중치Std.Error : 추정치의 정확도를 보여주고 t-value 계산에 쓰임t-value & Pr(>|t|) : coefficent가 0과 비교하여 유의미하게 다른지 검정, Pr은 유의 수준Performance MeasuresResidual Standard Error : 잔차의 표준편차, 작을수록 좋다Multiple / Adjusted R-square : 모델로 설명 가능한 분산의 양을 뜻함. Adjusted는 변수 개수를 함께 고려한 값으로 Multiple Regression에서 유용. 전반적인 적합도를 요약하지만 모델의 타당성을 말하기에는 불충분하..
비교 검정에서 관심 요인이 아닌 공변량의 효과를 함께 고려하기 위해 주로 ANCOVA 검정을 사용한다.다만, ANCOVA는 관심 요인과 공변량 간에 interaction이 없다는 가정 하에 이루어져야함에도 불구하고, 많은 연구자들이 interaction 여부 확인을 생략하고 ANCOVA를 진행하는 경우가 많다. 요인과 공변량 간에 상당히 큰 interaction이 존재할 경우, Moderated Regression(MODREG) 분석을 고려해볼 수 있다.MODREG는 그룹의 차이 크기가 공변량의 수준에 따라 어떻게 다른지 확인할 수 있다. 1. Moderated Regression (MODREG)란? 독립변수가 아닌 또 다른 변수(조절변수)가 독립변수와 종속변수 간의 효과를 중간에서 조절하는 경우 (즉..
1. 일반화 선형모형 (GLM)이란?데이터가 정규 분포가 아닌 임의의 다른 분포를 따르는 경우에 적용할 수 있는 확장된 선형 모형이다.대표적으로는 로지스틱 회귀, 포아송 회귀 등이 있다. 먼저 정규분포를 가정하는 ordinary linear model에서는 관찰된 예측 변수의 선형 조합으로 반응 변수의 기댓값을 예측한다. 즉, 예측 변수의 일정한 변화는 반응 변수의 일정한 변화를 야기하고 이런 방법은 반응 변수가 정규 분포의 특징을 가지는 경우에 한하여 유용하다고 할 수 있다. ex) 특정 근사치로부터 어느 방향으로든 다양한 값을 가지는 경우예측 변수의 변화에 비해 반응 변수의 변화가 상대적으로 작은 경우 하지만, 데이터가 정규 분포를 따르지 않고 아래와 같은 특징을 가지는 경우에는 확장된 선형 모델인..
1. 선형 혼합효과 모형(LMM) 이란? 데이터가 군집(cluster)로 모일 수 있는 경우 혹은 한 명의 실험 대상자로부터 반복하여 실험 결과를 얻는 경우에 사용할 수 있는 선형 모형이다. 동일한 군집의 데이터나 한명의 대상으로부터 반복측정된 데이터는 서로 독립이 아니게 되므로 개체 내 상관을 고려하여 분석이 필요하다. Linear Mixed Model은 고정효과(Fixed Effect)와 랜덤효과(Random Effect)로 이루어진다.(일반적으로 알고 있는 Linear Model 은 고정효과(Fixed Effect)로만 이루어진 모형이다) 2. LMM 가정설명변수와 반응변수는 선형 관계잔차의 등분산성잔차의 독립성잔차의 정규성 3. 고정효과 vs. 랜덤효과 고정효과 (fixed effects)요인..
1. ROC 분석이란?ROC 분석은 이진 분류 모델의 성능을 평가하는 시각적인 방법이다. ROC 곡선은 모델의 민감도와 1-특이도를 다양한 cut-off value에서 나타낸 그래프이며, 이 곡선을 통해 모델의 성능을 시각적으로 평가할 수 있다. 2. ROC curve이진분류기의 역치(Threshold)에 따른 성능을 그래프로 한번에 나타낸 것이다. 민감도 (TPR)와 1-특이도 (FPR)을 이용하여 표현한다.양성률 (TPR, True Positive Rate) = 민감도(Sesitivity) : 양성을 양성으로 맞게 진단할 확률위양성률 (FPR, False Positive Rate) = 1-특이도(Specificity) : 음성을 양성으로 잘못 진단할 확률 일반적으로 진단 모델의 성능을 높이기 위해 ..
1. 카파 상관계수란?범주형 데이터에서 일치도를 측정하는 통계량이다. 범주가 순서형이 아닌 명목형이고, 비교군이 2개 이하인 경우에는 Cohen's kappa를 사용한다.같은 경우지만 범주가 순서형인 경우는 Weighted Cohen's Kappa를 사용한다.n명의 환자를 대상으로 2명의 평가자가 측정하였을 때, 평가자 간 신뢰도 확인n명의 환자를 대상으로 두 가지 검사 방법 X와 Y을 사용할 때, X와 Y의 결과가 얼마나 일치하는지 확인n명의 환자를 대상으로 한 명의 평가자가 두 번 측정하였을 때, 1차와 2차 결과가 얼마나 일치하는지 평가자 내 신뢰도 확인 만약 아래와 같이 비교 군이 3개 이상인 경우는 Fleiss's Kappa를 사용한다.n명의 환자를 대상으로 3명의 평가자가 측정하였을 때, 평가..
1. 일치도 분석이란?임상 연구에서는 두 개 이상의 진단 도구(혹은 평가자)에 의한 결과가 일치하는지에 관심을 가지는 경우가 많다.아래와 같은 질문를 확인하고자 할 때 일치도 분석을 진행한다.기존 측정 장비와 신규로 도입한 측정 장비의 결과가 일치하는가?A 의사가 측정한 결과와 B 의사가 측정한 결과가 일치하는가?같은 메소드로 두 번 측정했을 때 1차 측정 결과와 2차 측정 결과가 일치하는가? 2. 일치도 관련 개념들신뢰도(reliability)측정 도구가 얼마나 일관된 결과를 제공하는지 평가한다.즉, 동일한 조건에서 반복된 측정이 얼마나 안정적이고 일관된 결과를 내는지를 평가한다.내적 신뢰도 / 재검사 신뢰도 / 평가자 간 신뢰도 등이 있다.타당도 (Validity)측정 도구나 방법이 실제로 측정하고자..
2024.01.10 - [Data Analysis/Statistics] - [통계] Decision Tree (의사결정나무) [통계] Decision Tree (의사결정나무)Decision Tree (의사결정나무) 1) 의사결정나무(Decision Tree)란? 입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회meowstudylog.tistory.com 의사결정나무의 개념에 대한 내용을 이전 포스팅을 참고하면 된다.이번 포스팅에서는 의사결정나무의 여러 알고리즘의 특징 대해 알아보겠다. 1. CART (Classification And Regression Tree)가지 분기 시에 여러 개의 노드가 아닌..
1. 의사결정나무(Decision Tree)란?입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회귀(regression)가 모두 가능하다. 출력 값이 범주형인 경우나 연속형인 경우 모두 예측 가능하다는 뜻으로,분류의 경우 해당 terminal node의 종속변수(y)의 최빈값을 예측값으로 반환하고 회귀의 경우 해당 terminal node의 종속변수(y)의 평균을 예측값으로 반환한다. 2. 불순도, 불확실성나무의 가지를 나누는 기준은 불순도를 통해 정해진다.분류나무는 구분 뒤 각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소..