목록Statistics & AI (46)
통계공부합니다
비교 검정에서 관심 요인이 아닌 공변량의 효과를 함께 고려하기 위해 주로 ANCOVA 검정을 사용한다.다만, ANCOVA는 관심 요인과 공변량 간에 interaction이 없다는 가정 하에 이루어져야함에도 불구하고, 많은 연구자들이 interaction 여부 확인을 생략하고 ANCOVA를 진행하는 경우가 많다. 요인과 공변량 간에 상당히 큰 interaction이 존재할 경우, Moderated Regression(MODREG) 분석을 고려해볼 수 있다.MODREG는 그룹의 차이 크기가 공변량의 수준에 따라 어떻게 다른지 확인할 수 있다. 1. Moderated Regression (MODREG)란? 독립변수가 아닌 또 다른 변수(조절변수)가 독립변수와 종속변수 간의 효과를 중간에서 조절하는 경우 (즉..

1. 일반화 선형모형 (GLM)이란?데이터가 정규 분포가 아닌 임의의 다른 분포를 따르는 경우에 적용할 수 있는 확장된 선형 모형이다.대표적으로는 로지스틱 회귀, 포아송 회귀 등이 있다. 먼저 정규분포를 가정하는 ordinary linear model에서는 관찰된 예측 변수의 선형 조합으로 반응 변수의 기댓값을 예측한다. 즉, 예측 변수의 일정한 변화는 반응 변수의 일정한 변화를 야기하고 이런 방법은 반응 변수가 정규 분포의 특징을 가지는 경우에 한하여 유용하다고 할 수 있다. ex) 특정 근사치로부터 어느 방향으로든 다양한 값을 가지는 경우예측 변수의 변화에 비해 반응 변수의 변화가 상대적으로 작은 경우 하지만, 데이터가 정규 분포를 따르지 않고 아래와 같은 특징을 가지는 경우에는 확장된 선형 모델인..
1. 선형 혼합효과 모형(LMM) 이란? 데이터가 군집(cluster)로 모일 수 있는 경우 혹은 한 명의 실험 대상자로부터 반복하여 실험 결과를 얻는 경우에 사용할 수 있는 선형 모형이다. 동일한 군집의 데이터나 한명의 대상으로부터 반복측정된 데이터는 서로 독립이 아니게 되므로 개체 내 상관을 고려하여 분석이 필요하다. Linear Mixed Model은 고정효과(Fixed Effect)와 랜덤효과(Random Effect)로 이루어진다.(일반적으로 알고 있는 Linear Model 은 고정효과(Fixed Effect)로만 이루어진 모형이다) 2. LMM 가정설명변수와 반응변수는 선형 관계잔차의 등분산성잔차의 독립성잔차의 정규성 3. 고정효과 vs. 랜덤효과 고정효과 (fixed effects)요인..

1. ROC 분석이란?ROC 분석은 이진 분류 모델의 성능을 평가하는 시각적인 방법이다. ROC 곡선은 모델의 민감도와 1-특이도를 다양한 cut-off value에서 나타낸 그래프이며, 이 곡선을 통해 모델의 성능을 시각적으로 평가할 수 있다. 2. ROC curve이진분류기의 역치(Threshold)에 따른 성능을 그래프로 한번에 나타낸 것이다. 민감도 (TPR)와 1-특이도 (FPR)을 이용하여 표현한다.양성률 (TPR, True Positive Rate) = 민감도(Sesitivity) : 양성을 양성으로 맞게 진단할 확률위양성률 (FPR, False Positive Rate) = 1-특이도(Specificity) : 음성을 양성으로 잘못 진단할 확률 일반적으로 진단 모델의 성능을 높이기 위해 ..
1. 카파 상관계수란?범주형 데이터에서 일치도를 측정하는 통계량이다. 범주가 순서형이 아닌 명목형이고, 비교군이 2개 이하인 경우에는 Cohen's kappa를 사용한다.같은 경우지만 범주가 순서형인 경우는 Weighted Cohen's Kappa를 사용한다.n명의 환자를 대상으로 2명의 평가자가 측정하였을 때, 평가자 간 신뢰도 확인n명의 환자를 대상으로 두 가지 검사 방법 X와 Y을 사용할 때, X와 Y의 결과가 얼마나 일치하는지 확인n명의 환자를 대상으로 한 명의 평가자가 두 번 측정하였을 때, 1차와 2차 결과가 얼마나 일치하는지 평가자 내 신뢰도 확인 만약 아래와 같이 비교 군이 3개 이상인 경우는 Fleiss's Kappa를 사용한다.n명의 환자를 대상으로 3명의 평가자가 측정하였을 때, 평가..
1. 일치도 분석이란?임상 연구에서는 두 개 이상의 진단 도구(혹은 평가자)에 의한 결과가 일치하는지에 관심을 가지는 경우가 많다.아래와 같은 질문를 확인하고자 할 때 일치도 분석을 진행한다.기존 측정 장비와 신규로 도입한 측정 장비의 결과가 일치하는가?A 의사가 측정한 결과와 B 의사가 측정한 결과가 일치하는가?같은 메소드로 두 번 측정했을 때 1차 측정 결과와 2차 측정 결과가 일치하는가? 2. 일치도 관련 개념들신뢰도(reliability)측정 도구가 얼마나 일관된 결과를 제공하는지 평가한다.즉, 동일한 조건에서 반복된 측정이 얼마나 안정적이고 일관된 결과를 내는지를 평가한다.내적 신뢰도 / 재검사 신뢰도 / 평가자 간 신뢰도 등이 있다.타당도 (Validity)측정 도구나 방법이 실제로 측정하고자..
2024.01.10 - [Data Analysis/Statistics] - [통계] Decision Tree (의사결정나무) [통계] Decision Tree (의사결정나무)Decision Tree (의사결정나무) 1) 의사결정나무(Decision Tree)란? 입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회meowstudylog.tistory.com 의사결정나무의 개념에 대한 내용을 이전 포스팅을 참고하면 된다.이번 포스팅에서는 의사결정나무의 여러 알고리즘의 특징 대해 알아보겠다. 1. CART (Classification And Regression Tree)가지 분기 시에 여러 개의 노드가 아닌..

1. 의사결정나무(Decision Tree)란?입력 값들의 조합으로 출력 값을 분류, 예측하는 모형으로 트리 구조(Tree)의 그래프로 표현된다. 의사결정나무는 분류(classification)와 회귀(regression)가 모두 가능하다. 출력 값이 범주형인 경우나 연속형인 경우 모두 예측 가능하다는 뜻으로,분류의 경우 해당 terminal node의 종속변수(y)의 최빈값을 예측값으로 반환하고 회귀의 경우 해당 terminal node의 종속변수(y)의 평균을 예측값으로 반환한다. 2. 불순도, 불확실성나무의 가지를 나누는 기준은 불순도를 통해 정해진다.분류나무는 구분 뒤 각 영역의 순도(homogeneity)가 증가, 불순도(impurity) 혹은 불확실성(uncertainty)이 최대한 감소..
1. 급내상관계수(ICC)란?두 개 이상의 검사 방법 또는 두 명 이상의 평가자의 측정 결과(연속형)의 일치도를 분석하는 방법이다.예를 들어, 환자의 혈당을 측정하는 두 가지 검사 방법이 있을 때, 두 검사의 측정 결과가 얼마나 일치하는지를 ICC를 통해 확인할 수 있다. 여러 그룹의 연속형 측정 값이 얼마나 일치하는지 확인할 때, 비교 검정이나 상관 분석을 진행하면 된다고 생각할 수 있는데, 비교 검정은 상호 독립적인 두 그룹의 평균 또는 중앙값을 비교하는 방법이며, 상관 분석은 두 측정치간 선형 연관성을 의미할 뿐 일치도와는 개념이 다르다. 일치도는 동일한 사람이 두 개 이상의 검사 방법으로 여러 번 측정하였을 때, 그 측정 결과가 일치하는지를 파악하는 것이므로 반복 측정을 고려하는 적절한 일치도 분..

1. 다중대응분석(MCA)이란? 다변량 범주형 자료의 탐색적 분석에 이용되는 차원 축소 기법이다.대응분석(CA)의 확장이며, 범주형 데이터에 대한 주성분분석(PCA)으로 이해할 수 있다. 연속형 자료의 차원 축소 기법인 PCA에서는 공분산을 통해 변수 간의 관계성 파악한다. 관계가 밀접한 변수들의 선형조합으로 정보량이 많은 변수(주성분)를 추출한다. 범주형 자료에서는 공분산을 사용할 수 없기 때문에 범주형 변수의 관계성 지표인 카이제곱 검정통계량을 사용한다. 두 변수의 관계가 밀접할 수록 카이제곱 검정통계량은 커지게 된다. 변수 간 카이제곱 검정통계량으로 만든 행렬을 분해(Decomposition)하여 요인을 찾아내는 것이 대응분석(CA)이고, CA를 여러 변수로 확장한 것이 다중대응분석(MCA)이다. ..