목록2023/12 (6)
Stats & AI tech blog - '일단 시도함'
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/w2C4v/btsCMoJ8LCb/KWZrNWEnMKjcxFukeGpHk0/img.png)
1. 다중대응분석(MCA)이란? 다변량 범주형 자료의 탐색적 분석에 이용되는 차원 축소 기법이다.대응분석(CA)의 확장이며, 범주형 데이터에 대한 주성분분석(PCA)으로 이해할 수 있다. 연속형 자료의 차원 축소 기법인 PCA에서는 공분산을 통해 변수 간의 관계성 파악한다. 관계가 밀접한 변수들의 선형조합으로 정보량이 많은 변수(주성분)를 추출한다. 범주형 자료에서는 공분산을 사용할 수 없기 때문에 범주형 변수의 관계성 지표인 카이제곱 검정통계량을 사용한다. 두 변수의 관계가 밀접할 수록 카이제곱 검정통계량은 커지게 된다. 변수 간 카이제곱 검정통계량으로 만든 행렬을 분해(Decomposition)하여 요인을 찾아내는 것이 대응분석(CA)이고, CA를 여러 변수로 확장한 것이 다중대응분석(MCA)이다. ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bpvWgx/btsCQqVBLsD/AaJDdAaIlH6WSYgL4SWcG1/img.png)
이전 포스팅에서 로지스틱 회귀 분석 개념에 대해 알아보았다.2023.11.29 - [Machine Learning/Regression] - [머신러닝] Logistic Regression Analysis (로지스틱 회귀분석) 로지스틱 회귀에서는 어떤 사건의 발생을 직접 예측하는 것이 아니라, 사건이 발생할 확률 (0~1) 을 예측하였는데,이번 포스팅에서는 R에서 이 확률 곡선을 그리는 방법에 대해 알아보겠다. 1. Probability Curve of each group 아래는 3개 그룹에서 CM_sIgE의 투여량에 따라 food 알러지가 발생할 확률을 그래프로 나타내는 코드이다.for(i in 1:5){ x
이전 포스팅에서 진단 모델 성능 평가 지표의 개념과 R코드를 알아보았다.2023.12.07 - [Statistics] - [통계] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도)2023.12.08 - [Programming/R] - [R] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도) 경우에 따라 두 개의 진단 도구 (ex. 기존 진단 도구 vs 신규 진단 도구)의 결과를 비교해야할 때가 있는데, 이번 포스팅에서는 각 지표를 비교하는 방법에 대해 알아보겠다. 동일한 환자를 대상으로 진단 방법 A, B 시행한 데이터에서 두 ..
이전 포스팅에서 진단 모델의 성능 평가 지표 개념에 대해 알아보았다.2023.12.07 - [Data Analysis/Statistics] - Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도) [통계] Diagnostic Test (진단 테스트) : Sensitivity, Specificity, Accuracy (민감도, 특이도, 정확도)Diagnostic Testing (진단 테스트) 진단 모델의 성능을 평가하기 위한 테스트로 진단 모델이 실제 값을 얼마나 잘 예측하는지 평가하는데 사용된다. 1. Confusion Matrix: 예측 값과 실제 값을 비교하기meowstudylog.tistory.com 오늘 포스..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/7F8VA/btsBDNQjIgZ/xv2tkYoyDK6WJN37t8PWE1/img.png)
진단 모델의 성능을 평가하기 위한 테스트로 진단 모델이 실제 값을 얼마나 잘 예측하는지 평가하는데 사용된다. 1. Confusion Matrix: 예측 값과 실제 값을 비교하기 위한 표 Result10Predict1TP (True Positive)FP (False Positive)0FN (False Negative)TN (True Negative) * TP (True Positive) : 양성으로 진단하고 실제로도 양성인 경우* FP (False Positive) : 양성으로 진단하고 실제로는 음성인 경우* FN (False Negative) : 음성으로 진단하고 실제로는 양성인 경우* TN (True Negative) : 음성으로 진단하고 실제로도 음성인 경우 2. 진단 테스트 지표 민감도 (Sens..
1. 성향점수매칭(PSM) 이란?무작위 대조군 연구(RCT)가 불가능한 관찰 연구에서 실험군과 대조군 그룹 간 비교를 위해 사용되는 통계적 기법이다.표본 추출 과정에서 적절한 랜덤화가 이루어지지 않았을 경우에는 특정 공변량(covariate)에 의해 통계 분석 결과가 왜곡되는 선택 편향(selection bias)이 발생할 수 있다. 이런 공변량들은 실험군과 대조군 사이의 결과 차이를 규명하는데 혼란 변수로 작용하게 된다. PSM은 주요 관심인 독립변수가 종속변수에 미치는 영향을 평가하고자 할 때, 그 관계에 영향을 미칠 수 있는 공변량의 편향(bias)를 줄이고자 사용되는 통계기법이다. 2. PSM 절차1) 성향 점수 계산처치 변수를 종속변수로, 혼란 변수을 독립변수로 두고 로지스틱 회귀 분석 등의 ..