목록Total (91)
통계공부합니다
1. Nth Hghtest Salary (FUNCTION) CREATE FUNCTION getNth (N INT) RETURNS INT BEGIN RETURN ( SELECT Salary From Employee LIMIT 1, N-1 //LIMIT 1 OFFSET N-1 ); END CREATE FUNCTION getNth (N INT) RETURNS INT BEGIN SET N = N-1 RETURN ( SELECT Salary From Employee LIMIT 1, N //LIMIT 1 OFFSET N ); END 2. Rank Scores (DENSE_RANK, -보다 같거나 큰수를 세서 RANK) //DENSE_RANK() OVER () SELECT score, DENSE_RANK() OVER..
21. Recyclable and Low Fat Products SELECT product_id FROM Products WHERE SUM(low_fats, recyclable) = 2 low_fats = TRUE AND recyclable = TRUE 22. Warehouse Manger SELECT W.name, SUM(Width*Lenght*Height*unit) as volume FROM Warehouse W JOIN Products P ON W.product_id = P.product_id GROUP BY W.name 23. Average Time of Process per Machine //기계별 프로세스 처리량 구하고 그걸 다 더하고 SELECT machine_id, avg(process_t..
11. Classes More Than 5 Students (COUNT DISTINCT)SELECT classFROM CoursesGROUP BY classHAVING COUNT(**Distinct**(student)) >= 512. Not Boring Movies//boring이 아닌 odd넘버 정렬은 rating descSELECT id, movie, description, ratingFROM cinemaWHERE description != 'boring' AND id%2 = 1ORDER BY rating desc13. Swap Salary (UPDATE)UPDATE salary SET sex = IF(sex= 'm', 'f', 'm')UPDATE salary SET sex = CASE WHEN se..
1. Combine Two Table (LEFT JOIN) Person, Address 두 테이블 SELECT A.FirstName, A.LastName, B.City, B.State FROM Person A LEFT JOIN Address B ON A.PersonId = B.PersonId // 그냥 JOIN = INNER JOIN 2. Second Hightest Salary (LIMIT, OFFSET) SELECT E.Salary FROM Employee E ORDER BY E.Salary desc LIMIT 1 OFFSET 1 //LIMIT A 출력할 행의 수 //OFFSET B 몇 번째 ROW부터 출력할지 //=LIMIT B, A //SQL에서 첫번쨰 ROW = 0 //USING SUBQUERY..
비교 검정에서 관심 요인이 아닌 공변량의 효과를 함께 고려하기 위해 주로 ANCOVA 검정을 사용한다.다만, ANCOVA는 관심 요인과 공변량 간에 interaction이 없다는 가정 하에 이루어져야함에도 불구하고, 많은 연구자들이 interaction 여부 확인을 생략하고 ANCOVA를 진행하는 경우가 많다. 요인과 공변량 간에 상당히 큰 interaction이 존재할 경우, Moderated Regression(MODREG) 분석을 고려해볼 수 있다.MODREG는 그룹의 차이 크기가 공변량의 수준에 따라 어떻게 다른지 확인할 수 있다. 1. Moderated Regression (MODREG)란? 독립변수가 아닌 또 다른 변수(조절변수)가 독립변수와 종속변수 간의 효과를 중간에서 조절하는 경우 (즉..

1. 일반화 선형모형 (GLM)이란?데이터가 정규 분포가 아닌 임의의 다른 분포를 따르는 경우에 적용할 수 있는 확장된 선형 모형이다.대표적으로는 로지스틱 회귀, 포아송 회귀 등이 있다. 먼저 정규분포를 가정하는 ordinary linear model에서는 관찰된 예측 변수의 선형 조합으로 반응 변수의 기댓값을 예측한다. 즉, 예측 변수의 일정한 변화는 반응 변수의 일정한 변화를 야기하고 이런 방법은 반응 변수가 정규 분포의 특징을 가지는 경우에 한하여 유용하다고 할 수 있다. ex) 특정 근사치로부터 어느 방향으로든 다양한 값을 가지는 경우예측 변수의 변화에 비해 반응 변수의 변화가 상대적으로 작은 경우 하지만, 데이터가 정규 분포를 따르지 않고 아래와 같은 특징을 가지는 경우에는 확장된 선형 모델인..
1. 선형 혼합효과 모형(LMM) 이란? 데이터가 군집(cluster)로 모일 수 있는 경우 혹은 한 명의 실험 대상자로부터 반복하여 실험 결과를 얻는 경우에 사용할 수 있는 선형 모형이다. 동일한 군집의 데이터나 한명의 대상으로부터 반복측정된 데이터는 서로 독립이 아니게 되므로 개체 내 상관을 고려하여 분석이 필요하다. Linear Mixed Model은 고정효과(Fixed Effect)와 랜덤효과(Random Effect)로 이루어진다.(일반적으로 알고 있는 Linear Model 은 고정효과(Fixed Effect)로만 이루어진 모형이다) 2. LMM 가정설명변수와 반응변수는 선형 관계잔차의 등분산성잔차의 독립성잔차의 정규성 3. 고정효과 vs. 랜덤효과 고정효과 (fixed effects)요인..

통계 분석을 하다보면 데이터의 각 그룹(ex. 치료군/대조군) 별로 정규성 검정을 하는 경우가 많다.아래 함수를 통해 변수를 동적으로 바꿔가며 group_by를 사용한 shapiro_test를 수행할 수 있다. 1. shapiro_test {rstatix}, group_by {dplyr}library(rstatix)data %>% group_by(group) %>% shapiro_test(ALCAM) # 변수 바꿔가며 테스트 반복 lapply(colnames(permnt)[4:15], function(var){ permnt %>% group_by(cbct) %>% shapiro_test({{var}})}) group variable statistic p ..
1. rpart (Recursive Partitioning and Regression Trees) : CART 알고리즘을 사용하여 기본적인 결정 트리를 구현library(rpart)library(rpart.plot)rpartmod 2. party and partykit : 조건부 추론 트리 (Conditional Inference Trees) 를 제공 library(party) partymod 3. C50 : C5.0 알고리즘을 사용하여 결정트리와 부스팅 모델을 제공 library(C50) c50mod 4. tree : 단순하고 기본적인 결정 트리 구현 library(tree) treemod 5. CHAID : CHAID 알고리즘으로 트리 구현install.packages("CHAI..

1. ROC 분석이란?ROC 분석은 이진 분류 모델의 성능을 평가하는 시각적인 방법이다. ROC 곡선은 모델의 민감도와 1-특이도를 다양한 cut-off value에서 나타낸 그래프이며, 이 곡선을 통해 모델의 성능을 시각적으로 평가할 수 있다. 2. ROC curve이진분류기의 역치(Threshold)에 따른 성능을 그래프로 한번에 나타낸 것이다. 민감도 (TPR)와 1-특이도 (FPR)을 이용하여 표현한다.양성률 (TPR, True Positive Rate) = 민감도(Sesitivity) : 양성을 양성으로 맞게 진단할 확률위양성률 (FPR, False Positive Rate) = 1-특이도(Specificity) : 음성을 양성으로 잘못 진단할 확률 일반적으로 진단 모델의 성능을 높이기 위해 ..