목록통계 (3)
Stats & AI tech blog - '일단 시도함'
1. 다중성 문제(Multiplicity Problem)이란?하나의 평가 변수에 대해 유의수준 α">αα = 0.05로 양측 검정을 하는 경우, 모집단에서 실제 차이가 존재하지 않는데 차이를 잘못 발견할 확률은 0.05/2 = 0.025(2.5%)이다. 즉, 실제 차이가 존재하지 않을 때 차이를 발견하지 못할 확률은 0.975(97.5%)가 된다. 반면, 2개의 독립적인 평가 변수에 대해 유의수준 α">αα = 0.05로 양측 검정을 해서 2개 중 하나의 평가 변수만 유의해도 효과가 있다고 인정하는 경우에는, 모집단에서 실제 차이가 존재하지 않는 두 평가 변수에서 모두 차이를 확인하지 못할 확률은 0.975*0.975 = 0.95(95%)이다. 즉, α">αα를 0...
1. 성향점수매칭(PSM) 이란?무작위 대조군 연구(RCT)가 불가능한 관찰 연구에서 실험군과 대조군 그룹 간 비교를 위해 사용되는 통계적 기법이다.표본 추출 과정에서 적절한 랜덤화가 이루어지지 않았을 경우에는 특정 공변량(covariate)에 의해 통계 분석 결과가 왜곡되는 선택 편향(selection bias)이 발생할 수 있다. 이런 공변량들은 실험군과 대조군 사이의 결과 차이를 규명하는데 혼란 변수로 작용하게 된다. PSM은 주요 관심인 독립변수가 종속변수에 미치는 영향을 평가하고자 할 때, 그 관계에 영향을 미칠 수 있는 공변량의 편향(bias)를 줄이고자 사용되는 통계기법이다. 2. PSM 절차1) 성향 점수 계산처치 변수를 종속변수로, 혼란 변수을 독립변수로 두고 로지스틱 회귀 분석 등의 ..
경시적 자료는 한 개체를 반복적으로 관찰하거나 시간의 추이에 따라 표집된 자료이다. 한 개체 내 측정치들 간에 연관성이 존재하므로 공분산이 0이 아니게 되며 변이를 구성하는 요소를 통해 공분산 구조를 추정한다. 평균 함수를 통한 경시적 자료 표현$$y_{ij} = \mu(t_{ij}) + \epsilon_{ij}$$ 변이를 구성하는 요소1) 개체 간 변이 (between-individual heterogeneity)2) 개체 내 변이 (within-individual variation)3) 측정 오차 (measurement error) 개체 간 변이개체 간 변이는 개체별 랜덤 효과(subject-specific random effect)로 표현할 수 있다. 개체별 랜덤 효과는 일변량 정규분포를 이용하..