목록전체 글 (94)
Stats & AI tech blog - '일단 시도함'
1. Linear ModelResiduals : 예측 값과 실제 값의 차이로 작을수록 좋은 모델CoefficientsEstimate : 변수들에 부여된 가중치Std.Error : 추정치의 정확도를 보여주고 t-value 계산에 쓰임t-value & Pr(>|t|) : coefficent가 0과 비교하여 유의미하게 다른지 검정, Pr은 유의 수준Performance MeasuresResidual Standard Error : 잔차의 표준편차, 작을수록 좋다Multiple / Adjusted R-square : 모델로 설명 가능한 분산의 양을 뜻함. Adjusted는 변수 개수를 함께 고려한 값으로 Multiple Regression에서 유용. 전반적인 적합도를 요약하지만 모델의 타당성을 말하기에는 불충분하..
1. Department Top Three Salaries //각 부서마다 연봉 top3 SELECT D.Name as Department, E.Name as Employee, E.Salary as Salary FROM Department D JOIN ( SELECT DepartmentId, Name, Salary, RANK() OVER (PARTITION BY DepartmentId ORDER BY Salary DESC) as rank FROM Employee WHERE rank = "2013-10-01" AND Request_at =100 and b.salary >= 100 and c.salary > =100 order by visit_date 4. Game Play Analysis 5 //해당 날짜..
11. Activity Participant SELECT activity FROM Friends GROUP BY activity HAVING COUNT(*) != (SELECT COUNT(*) FROM Friends GROUP BY activity ORDER BY COUNT(*) ASC LIMIT 1) AND COUNT(*) != (SELECT COUNT(*) FROM Friends GROUP BY activity ORDER BY COUNT(*) DESC LIMIT 1) 12. Number Of Trusted Contacts of a Customer SELECT invoice_id, customer_name, price, COUNT(contact_email) as contacts_cnt, sum(IF(c..
1. Nth Hghtest Salary (FUNCTION) CREATE FUNCTION getNth (N INT) RETURNS INT BEGIN RETURN ( SELECT Salary From Employee LIMIT 1, N-1 //LIMIT 1 OFFSET N-1 ); END CREATE FUNCTION getNth (N INT) RETURNS INT BEGIN SET N = N-1 RETURN ( SELECT Salary From Employee LIMIT 1, N //LIMIT 1 OFFSET N ); END 2. Rank Scores (DENSE_RANK, -보다 같거나 큰수를 세서 RANK) //DENSE_RANK() OVER () SELECT score, DENSE_RANK() OVER..
21. Recyclable and Low Fat Products SELECT product_id FROM Products WHERE SUM(low_fats, recyclable) = 2 low_fats = TRUE AND recyclable = TRUE 22. Warehouse Manger SELECT W.name, SUM(Width*Lenght*Height*unit) as volume FROM Warehouse W JOIN Products P ON W.product_id = P.product_id GROUP BY W.name 23. Average Time of Process per Machine //기계별 프로세스 처리량 구하고 그걸 다 더하고 SELECT machine_id, avg(process_t..
11. Classes More Than 5 Students (COUNT DISTINCT)SELECT classFROM CoursesGROUP BY classHAVING COUNT(**Distinct**(student)) >= 512. Not Boring Movies//boring이 아닌 odd넘버 정렬은 rating descSELECT id, movie, description, ratingFROM cinemaWHERE description != 'boring' AND id%2 = 1ORDER BY rating desc13. Swap Salary (UPDATE)UPDATE salary SET sex = IF(sex= 'm', 'f', 'm')UPDATE salary SET sex = CASE WHEN se..
1. Combine Two Table (LEFT JOIN) Person, Address 두 테이블 SELECT A.FirstName, A.LastName, B.City, B.State FROM Person A LEFT JOIN Address B ON A.PersonId = B.PersonId // 그냥 JOIN = INNER JOIN 2. Second Hightest Salary (LIMIT, OFFSET) SELECT E.Salary FROM Employee E ORDER BY E.Salary desc LIMIT 1 OFFSET 1 //LIMIT A 출력할 행의 수 //OFFSET B 몇 번째 ROW부터 출력할지 //=LIMIT B, A //SQL에서 첫번쨰 ROW = 0 //USING SUBQUERY..
비교 검정에서 관심 요인이 아닌 공변량의 효과를 함께 고려하기 위해 주로 ANCOVA 검정을 사용한다.다만, ANCOVA는 관심 요인과 공변량 간에 interaction이 없다는 가정 하에 이루어져야함에도 불구하고, 많은 연구자들이 interaction 여부 확인을 생략하고 ANCOVA를 진행하는 경우가 많다. 요인과 공변량 간에 상당히 큰 interaction이 존재할 경우, Moderated Regression(MODREG) 분석을 고려해볼 수 있다.MODREG는 그룹의 차이 크기가 공변량의 수준에 따라 어떻게 다른지 확인할 수 있다. 1. Moderated Regression (MODREG)란? 독립변수가 아닌 또 다른 변수(조절변수)가 독립변수와 종속변수 간의 효과를 중간에서 조절하는 경우 (즉..
1. 일반화 선형모형 (GLM)이란?데이터가 정규 분포가 아닌 임의의 다른 분포를 따르는 경우에 적용할 수 있는 확장된 선형 모형이다.대표적으로는 로지스틱 회귀, 포아송 회귀 등이 있다. 먼저 정규분포를 가정하는 ordinary linear model에서는 관찰된 예측 변수의 선형 조합으로 반응 변수의 기댓값을 예측한다. 즉, 예측 변수의 일정한 변화는 반응 변수의 일정한 변화를 야기하고 이런 방법은 반응 변수가 정규 분포의 특징을 가지는 경우에 한하여 유용하다고 할 수 있다. ex) 특정 근사치로부터 어느 방향으로든 다양한 값을 가지는 경우예측 변수의 변화에 비해 반응 변수의 변화가 상대적으로 작은 경우 하지만, 데이터가 정규 분포를 따르지 않고 아래와 같은 특징을 가지는 경우에는 확장된 선형 모델인..
1. 선형 혼합효과 모형(LMM) 이란? 데이터가 군집(cluster)로 모일 수 있는 경우 혹은 한 명의 실험 대상자로부터 반복하여 실험 결과를 얻는 경우에 사용할 수 있는 선형 모형이다. 동일한 군집의 데이터나 한명의 대상으로부터 반복측정된 데이터는 서로 독립이 아니게 되므로 개체 내 상관을 고려하여 분석이 필요하다. Linear Mixed Model은 고정효과(Fixed Effect)와 랜덤효과(Random Effect)로 이루어진다.(일반적으로 알고 있는 Linear Model 은 고정효과(Fixed Effect)로만 이루어진 모형이다) 2. LMM 가정설명변수와 반응변수는 선형 관계잔차의 등분산성잔차의 독립성잔차의 정규성 3. 고정효과 vs. 랜덤효과 고정효과 (fixed effects)요인..