목록Data Analysis (42)
zimslog

R에서 그래프로 탐색적 분석을 수행할 때, 주로 아래 순서대로 시각화를 진행한다. 1. 단변량 시각화: 변수의 분포 이해 (히스토그램, 박스플롯, KDE, 막대그래프) 2. 이변량 시각화 : 두 변수 간의 관계 파악 (산점도, 히트맵, 라인플롯) 3. 다변량 시각화 : 세 개 이상의 변수 간 관계 파악 (페어플롯, 병렬좌표, 히트맵) 아래는 자주 사용하는 몇 가지 그래프에 대한 예시 코드이다. 밀도추정그래프 (KDE)# 이탈여부에 따라 분포가 어떻게 다른지 확인df %>% ggplot(aes(x = tenure, fill = fct_rev(Churn), alpha = .5))+ geom_density() 평균 막대 그래프 - fct_rev()를 통해 레벨 거꾸로 표현 - stat = 'summa..
라이브러리 & 데이터 불러오기# librarysetwd("C:/Users/PC2/Documents/Rcode")req 변수명 변경# 충돌 에러 (unused argument error) 발생할 경우 패키지 명시해주기data %>% dplyr::rename(Annaul_Income = 'Annual Income (k$)', Spending_Score = 'Spending Score (1-100)') 변수 타입 변경# 동시에 여러 컬럼 변경data[,1:11] % mutate_if(is.character, as.factor) Factor 변수 처리 # factor로 변경# ordered=T는 데이터가 순서형임을 뜻함data$quarter % mutate(Time = factor(Tim..
1. Linear ModelResiduals : 예측 값과 실제 값의 차이로 작을수록 좋은 모델CoefficientsEstimate : 변수들에 부여된 가중치Std.Error : 추정치의 정확도를 보여주고 t-value 계산에 쓰임t-value & Pr(>|t|) : coefficent가 0과 비교하여 유의미하게 다른지 검정, Pr은 유의 수준Performance MeasuresResidual Standard Error : 잔차의 표준편차, 작을수록 좋다Multiple / Adjusted R-square : 모델로 설명 가능한 분산의 양을 뜻함. Adjusted는 변수 개수를 함께 고려한 값으로 Multiple Regression에서 유용. 전반적인 적합도를 요약하지만 모델의 타당성을 말하기에는 불충분하..
비교 검정에서 관심 요인이 아닌 공변량의 효과를 함께 고려하기 위해 주로 ANCOVA 검정을 사용한다.다만, ANCOVA는 관심 요인과 공변량 간에 interaction이 없다는 가정 하에 이루어져야함에도 불구하고, 많은 연구자들이 interaction 여부 확인을 생략하고 ANCOVA를 진행하는 경우가 많다. 요인과 공변량 간에 상당히 큰 interaction이 존재할 경우, Moderated Regression(MODREG) 분석을 고려해볼 수 있다.MODREG는 그룹의 차이 크기가 공변량의 수준에 따라 어떻게 다른지 확인할 수 있다. 1. Moderated Regression (MODREG)란? 독립변수가 아닌 또 다른 변수(조절변수)가 독립변수와 종속변수 간의 효과를 중간에서 조절하는 경우 (즉..

1. 일반화 선형모형 (GLM)이란?데이터가 정규 분포가 아닌 임의의 다른 분포를 따르는 경우에 적용할 수 있는 확장된 선형 모형이다.대표적으로는 로지스틱 회귀, 포아송 회귀 등이 있다. 먼저 정규분포를 가정하는 ordinary linear model에서는 관찰된 예측 변수의 선형 조합으로 반응 변수의 기댓값을 예측한다. 즉, 예측 변수의 일정한 변화는 반응 변수의 일정한 변화를 야기하고 이런 방법은 반응 변수가 정규 분포의 특징을 가지는 경우에 한하여 유용하다고 할 수 있다. ex) 특정 근사치로부터 어느 방향으로든 다양한 값을 가지는 경우예측 변수의 변화에 비해 반응 변수의 변화가 상대적으로 작은 경우 하지만, 데이터가 정규 분포를 따르지 않고 아래와 같은 특징을 가지는 경우에는 확장된 선형 모델인..

통계 분석을 하다보면 데이터의 각 그룹(ex. 치료군/대조군) 별로 정규성 검정을 하는 경우가 많다.아래 함수를 통해 변수를 동적으로 바꿔가며 group_by를 사용한 shapiro_test를 수행할 수 있다. 1. shapiro_test {rstatix}, group_by {dplyr}library(rstatix)data %>% group_by(group) %>% shapiro_test(ALCAM) # 변수 바꿔가며 테스트 반복 lapply(colnames(permnt)[4:15], function(var){ permnt %>% group_by(cbct) %>% shapiro_test({{var}})}) group variable statistic p ..
Kappa 상관계수에 대한 개념 설명은 이전 포스팅 참고.2024.01.11 - [Data Analysis/Statistics] - [통계] Cohen's Kappa (카파 상관계수) [통계] Cohen's Kappa (카파 상관계수)Cohen's Kappa (카파 상관계수) 1) 카파 상관계수란? 범주형 변수 간의 일치도를 측정하는 통계량이다. 예를 들어 n명의 환자에 대한 검사 방법 X와 Y의 결과가 있을 때, 두 검사 방법의 일치도가 어떠meowstudylog.tistory.com 이번 포스팅에서는 R에서 Kappa 상관계수를 통한 일치도를 확인하는 방법에 대해 알아보겠다. 예제)분석 목적 : 2개의 진단 법 간의 일치도를 확인하고자 한다.사용 데이터 : 순서 척도로 이루어진 두 개의 범주형 변수>..
1. 카파 상관계수란?범주형 데이터에서 일치도를 측정하는 통계량이다. 범주가 순서형이 아닌 명목형이고, 비교군이 2개 이하인 경우에는 Cohen's kappa를 사용한다.같은 경우지만 범주가 순서형인 경우는 Weighted Cohen's Kappa를 사용한다.n명의 환자를 대상으로 2명의 평가자가 측정하였을 때, 평가자 간 신뢰도 확인n명의 환자를 대상으로 두 가지 검사 방법 X와 Y을 사용할 때, X와 Y의 결과가 얼마나 일치하는지 확인n명의 환자를 대상으로 한 명의 평가자가 두 번 측정하였을 때, 1차와 2차 결과가 얼마나 일치하는지 평가자 내 신뢰도 확인 만약 아래와 같이 비교 군이 3개 이상인 경우는 Fleiss's Kappa를 사용한다.n명의 환자를 대상으로 3명의 평가자가 측정하였을 때, 평가..
1. 일치도 분석이란?임상 연구에서는 두 개 이상의 진단 도구(혹은 평가자)에 의한 결과가 일치하는지에 관심을 가지는 경우가 많다.아래와 같은 질문를 확인하고자 할 때 일치도 분석을 진행한다.기존 측정 장비와 신규로 도입한 측정 장비의 결과가 일치하는가?A 의사가 측정한 결과와 B 의사가 측정한 결과가 일치하는가?같은 메소드로 두 번 측정했을 때 1차 측정 결과와 2차 측정 결과가 일치하는가? 2. 일치도 관련 개념들신뢰도(reliability)측정 도구가 얼마나 일관된 결과를 제공하는지 평가한다.즉, 동일한 조건에서 반복된 측정이 얼마나 안정적이고 일관된 결과를 내는지를 평가한다.내적 신뢰도 / 재검사 신뢰도 / 평가자 간 신뢰도 등이 있다.타당도 (Validity)측정 도구나 방법이 실제로 측정하고자..