목록Data Analysis (42)
zimslog
지난 포스팅에서 3개 이상의 범주형 비교군 간 일치도를 확인하는 방법인 플레이스 카파에 대해 알아보았다.2024.11.22 - [Statistics & AI/Correlation] - [통계] Fleiss' kappa (플레이스의 카파) [통계] Fleiss' kappa (플레이스의 카파)Fleiss' kappa (플레이스의 카파) 이전 포스팅에서 카파 상관계수란 무엇인지와 Cohen's kappa에 대해 알아보았다.2024.01.11 - [Statistics & AI/Correlation] - [통계] Cohen's Kappa (코헨의 카파) [통계] Cohen's Kapmeowstudylog.tistory.com 이번 포스팅에서는 예제를 통해 R에서 플레이스 카파(Fleiss' kappa)를 계산..
이전 포스팅에서 카파 상관계수란 무엇인지와 Cohen's kappa에 대해 알아보았다.2024.01.11 - [Statistics & AI/Correlation] - [통계] Cohen's Kappa (코헨의 카파) [통계] Cohen's Kappa (코헨의 카파)Cohen's Kappa (코헨의 카파) 1. 카파 상관계수란? 범주형 데이터에서 일치도를 측정하는 통계량이다. 범주가 순서형이 아닌 명목형이고, 비교군이 2개 이하인 경우에는 Cohen's kappa를 사용한다.meowstudylog.tistory.com 이번 포스팅에서는 범주형 자료에서 3명 이상의 평가자를 비교하기 위해 사용하는 Fleiss' kappa에 대해 알아보겠다. 1. 카파 상관계수란?범주형 데이터에서 일치도를 측정하는 통계..
1. 다중성 문제(Multiplicity Problem)이란?하나의 평가 변수에 대해 유의수준 α">αα = 0.05로 양측 검정을 하는 경우, 모집단에서 실제 차이가 존재하지 않는데 차이를 잘못 발견할 확률은 0.05/2 = 0.025(2.5%)이다. 즉, 실제 차이가 존재하지 않을 때 차이를 발견하지 못할 확률은 0.975(97.5%)가 된다. 반면, 2개의 독립적인 평가 변수에 대해 유의수준 α">αα = 0.05로 양측 검정을 해서 2개 중 하나의 평가 변수만 유의해도 효과가 있다고 인정하는 경우에는, 모집단에서 실제 차이가 존재하지 않는 두 평가 변수에서 모두 차이를 확인하지 못할 확률은 0.975*0.975 = 0.95(95%)이다. 즉, α">αα를 0...

지난 포스팅에서 R에서 IPTW와 생존분석을 진행하는 방법에 대해 알아보았다.2024.11.09 - [Programming/R] - [R] IPTW, Inverse Probability of Treatment Weighting (역확률가중치)2024.11.13 - [Programming/R] - [R] Survival Analysis (Kaplan-Meier, Log-rank, Cox PH) 이번 포스팅에서는 R에서 IPTW 가중치를 부여하여 Kaplan-Meier 생존 곡선을 그리는 방법에 대해 알아보겠다. {survival, survminer} 패키지의 survfit, ggsurvplot 함수를 조합하여 그리는 방법과{survey, jskm} 패키지의 svykm, svyjskm함수를 조합하여 그리는 ..

이전 포스팅에서 생존 분석의 개념, Kaplan-Meier 추정과 Log-rank test 그리고 Cox 비례위험모형까지 알아보았다. 이번 포스팅에서는 R에서 생존 분석을 수행하는 방법에 대해 알아보겠다. 분석 절차는 아래와 같다.1. Kaplan-Meier 생존 곡선 2. Log-rank Test3. Cox 비례 위험 모형 1. Kaplan-Meier 생존 곡선 먼저 'survival' 패키지의 survfit() 함수를 사용하여 카플란마이어 생존 곡선을 추정한다.survfit의 종속변수는 Surv(시간, 발생여부) 형식으로 넣어주고, 독립변수로는 group을 넣어 주어 각 그룹의 시간에 따른 발생 확률의 변화를 알아본다. surv_obj 'survminer' 패키지의 ggsurvplot() 함수를..
이전 포스팅에서 PSM 분석에 대한 개념을 알아보았다.2023.12.04 - [Statistics] - [통계] PSM: Propensity Score Matching (성향점수매칭) [통계] PSM: Propensity Score Matching (성향점수매칭)PSM: Propensity Score Matching (성향점수매칭) 1. 성향점수매칭(PSM) 이란? 무작위 대조군 연구(RCT)가 불가능한 관찰 연구에서 실험군과 대조군 그룹 간 비교를 위해 사용되는 통계적 기법이다.표meowstudylog.tistory.com 이번 포스팅에서는 R에서 PSM을 수행하는 절차에 대해 알아보자! 예시로 사용할 데이터의 원인 변수는 당뇨 여부(DM)이고 종속 변수는 골다공증 여부(Osteoporosis)이다..

이번 포스팅에서는 R에서 IPTW(역확률 가중치)를 수행하는 방법에 대해 알아보겠다.이론적인 설명은 아래 포스팅을 참고하자!2024.11.07 - [Statistics & AI/Propensity Score Analysis] - [통계] IPTW, Inverse Probability of Treatment Weighting (역확률가중치) [통계] IPTW, Inverse Probability of Treatment Weighting (역확률가중치)IPTW, Inverse Probability of Treatment Weighting (역확률가중치) 성향점수분석 기법 중 하나인 처치역확률가중치(IPTW, Inverse Probability of Treatement Weighting)는 가중치를 부여하여..

성향점수분석 기법 중 하나인 처치역확률가중치(IPTW, Inverse Probability of Treatement Weighting)는 가중치를 부여하여 혼란 변수를 보정하는 기법이다. 성향점수매칭(PSM) 기법과 달리 매칭이 필요없으므로 데이터 손실 없이 전체 표본을 사용할 수 있다는 장점이 있다. IPTW 계산은 아래 절차대로 수행된다. 1. 공변량 선정2. 성향점수추정3. 공통지지영역 점검4. IPTW 계산5. 공변량 균형성 점검 1. 공변량 선정먼저 IPTW를 통해 보정할 공변량을 선정해야 한다.보정이 필요한 공변량은 원인 배치 변수 또는 결과 변수와 관련된 변수가 되어야 한다. 예를 들어, 치료 여부(Treatment)가 완치 여부(Outcomes)에 미치는 영향을 파악하고자 하는 연구에서 성..
오늘은 신뢰구간을 계산하는 여러 방법에 대해 알아보도록 하겠다. 결과 해석에서 신뢰구간은 점 추정치로만으로 파악할 수 없는 정보(추정된 효과 크기, 방향, 불확실성 등)를 포함하기 때문에 매우 중요한데, 어떤 데이터와 모델을 쓰느냐에 따라 계산 방법이 다르게 적용될 수 있다. 이번 포스팅에서는 주요한 신뢰구간 계산 방법인 Wlad, PLS, Score 방법에 대해 설명하겠다. 1. Wald 신뢰구간일반적으로 알고 있는 계산 방법이다. Wald 신뢰구간은 추정된 모수에 대해 정규 분포를 가정하고 계산된다.주로 단순한 모델에서의 신뢰구간을 계산할 때 사용되고, 모수의 표준오차(SE)를 활용한다.계산 방법 \[ \hat{\theta} \pm z_{\alpha/2} \times SE(\hat{..
회귀 분석에서 계수를 해석할 때는 목적에 따라 표준화계수(beta)와 비표준화계수(B)를 구분해서 해석해야 한다. 1. 비표준화 계수 (Unstandardized Coefficients)일반적으로 우리가 알고 있는 모형식에 사용하는 계수는 비표준화계수(B)이고, 이를 통해 실질적인 의미를 해석할 수 있다.예를 들어, $혈압 = (0.868*몸무게) + 65.543$인 회귀식을 통해 몸무게가 1kg 증가할 때, 혈압은 0.868 증가한다는 해석을 얻을 수 있다. 즉, 비표준화계수(B)는 단위를 유지해서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타낸다.비표준화 계수는 회귀 분석에서 독립 변수가 종속 변수에 미치는 직접적인 영향을 나타내며, 원래의 단위(예: 원, kg, cm 등)를 유지한 상태에서..