본문 바로가기
Today I Learned!/Data Science

통계학 (4) - Two-way ANOVA

by ENTJ의 자기계발 2023. 12. 2.

- 이 글은 유튜브 Sapientia a Del, 곽기영 교수님, 통계파랑 님을 참고하였습니다.

 

Two-way ANOVA란


 

- One-way ANOVA에서 독립변수 한 개 추가

- Main Effect(주 효과) : 각 독립변수의 종속변수에 대한 직접적인 영향력

- Interaction effect(교호작용( : 한 독립변수의 main effect가 다른 독립변수의 level(group)에 따라 원래의 선형관계가 비선형으로 변하는 경우

  - 다양한 형태로 존재, 주효과도에서 교차점

  - 교호작용이 있으면 두 독립변수를 이용하여 다양한 결과 예측가능

 

Two-way ANOVA


- 독립변수가 두 개이므로 주효과가 두개라서 F-value가 두 개, interaction이 있으므로 F-value 추가 필요

  - Between Variance 3개 필요 : F-value 3개 구할 것이라서

  - Within Variance 통일 : 일종의 비교대상이나 기준이므로 다를 경우 객관성 유지 불가능

$$ F-value_{main\ 1}= \frac{Between\ variance_{main\ 1}}{Within\ Variance} = \frac{\frac{SS_{main1}}{df_{1, main\ 1}}}{\frac{SS_{within}}{df_{2, within}}} $$ $$ F-value_{main\ 2}= \frac{Between\ variance_{main\ 2}}{Within\ Variance} = \frac{\frac{SS_{main2}}{df_{1, main\ 2}}}{\frac{SS_{within}}{df_{2, within}}} $$ $$ F-value_{interaction}= \frac{Between\ variance_{Interaction}}{Within\ Variance} = \frac{\frac{SS_{interaction}}{df_{1, main\ interaction}}}{\frac{SS_{within}}{df_{2, within}}}  $$

- 각 주 효과와, 교호작용에 대한 통계적 가설

$$ H_{01}:\mu_{11}=...=\mu_{1k}, k:group num $$ $$ H_{a1}:\mu_{1i}\neq\mu_{ij}\ for\ some\ ij $$

$$ H_{02}:\mu_{21}=...=\mu_{2k}, k:group num $$ $$ H_{a2}:\mu_{2i}\neq\mu_{ij}\ for\ some\ ij $$

$$ H_{03} : 교호작용은\ 없다, H_{a3} : 교호작용은\ 있다 $$

  - 적어도 한 개의 평균값이 다르다는 의미이고, 그룹 별 차이를 알 수 없으므로 사후검정 필요, 그래프 확인 필요(One-way ANOVA와 동일) ⇒ 이 원칙은 두 개의 Main effect에 대한 F-value가 유의할 경우에만 해당

  - 교호작용 F-value가 유의할 경우 복잡한 현상 ⇒ 경우의 수가 너무 많이 늘어남, 유의할 경우 그래프를 기반으로 해석

 

 

Two-way ANOVA 실습


- 세제의 세척력은 세제 3종류와 물의 온도에 영향을 받는다.

- 비교 대상이 되는 그룹 내 분산 계산

  $$ SS_{within} = (4-5)^2 + (5-5)^2 + (6-5)^2 + (5-5)^2+(7-9)^2+(9-9)^2+...+(10-12)^2+(13-12)^2=37.0 $$ $$ df_{within}=(r-1)\times k_1 \times k_2 = 3 \times 2\times 3=18 $$ $$ Within\ Variance = \frac{SS_{within}}{df_{within}}=\frac{37}{18}=2.06$$

 

- 첫 주효과(세탁세제)에 대한 Between variance : 두 세탁세제 그룹의 평균값이 전체 평균으로부터 얼마나 멀어져 있는지. Super mean, Best mean을 grand mean에서 뺴고 제곱합. 

$$ SS_{main\ 1}=r \times k_2 \times {(8.2-9.1)^2+(10-9.1)^2}=12\times {(8.2-9.1)^2+(10-9.1)^2} = 20.17$$

  - 12 : Super, Best 모두 총 12회 실험, 평균값 8.2, 10모두 12개의 데이터의 평균값

$$ df_{main\ 1}=k_1-1=1 $$ $$ Between\ Variance =MS_{main\ 1} = \frac{SS_{main\ 1}}{df_{main\ 1}}=\frac{20.17}{1}=20.17 $$

- 두 번째 주효과(물 온도)에 대한 Between Variance

$$ SS_{main\ 2}=r \times k_1 \times {(5.0-9.1)^2+(11.0-9.1)^2+(11.3-9.1)^2}=8\times {(5.0-9.1)^2+(11.0-9.1)^2+(11.3-9.1)^2} = 200.33 $$ $$ df_{main\ 2}=k_2-1=2 $$ $$ MS_{main\ 2} = \frac{SS_{main\ 2}}{df_{main\ 2}}=\frac{200.33}{2}=100.17  $$

 

- 교호작용의 Between Variance

$$ SS_{interaction} = r\times {(5.0-8.2-5.0+9.1)^2 + (9.0-8.2-11.0+9.1)^2+(10.5-8.2-11.3+9.1)^2+(5.0-10.0-5.0+9.1)^2+(13.0-10.0-11.0+9.1)^2+(12.0-10.0-11.3+9.1)^2}=16.33$$

⇒ 각 셀이 걸쳐져 있는 두 그룹의 평균값ㅇ르 빼고 마지막에 전체 평균값을 더하는 방식

$$ df_{Interaction}=(k_1-1)\times(k_2-1)=2\times1=2 $$ $$ MS_{interaction}=\frac{SS_{interaction}}{df_{interaction}}=\frac{16.33}{2}=8.17$$

 

- 총 F-value

$$ F-value_{detergent}=20.167 / 2.056=9.81 $$ $$ F-value_{temperature}=100.167 / 2.056=48.73 $$ $$ F-value_{interaction}=8.167 / 2.056=3.97$$

 

⇒ 결과 모두 유의

 

- 사후 검정 : Tukey

  - detergent : 유의

  - temperature : warm, hot은 비슷

 

  - interaction : 그룹 수가 총 6개라서, 총 15개의 비교 ⇒ 그래프가 이해하기 더 쉬움, 이후 tukey p-val 값으로 비교

  - cold & hot : super와 best 차이가 없어보임

  - warm에서는 super와 best의 차이 존재

  - super : hot & warm 겹쳐보임, cold는 세척력 낮음

  - best : hot & warm 겹쳐보임, cold는 세척력 낮음 

 

 

 

Sum of Squares의 종류


1. Type 1 SS : 순차 제곱합, 변수를 한 개씩 순차적으로 추가하면서 제곱합 계산

  - 변수의 순서에 따라 SS가 변할 수 있음. 중요변수를 먼저 감안한 뒤 추가변수 테스트 하거나, 변동 불가능한 변수를 먼저 고려한 뒤에 테스트

  - 일반적으로 많이 사용하지 않음

 

2. Type 2 SS : interaction은 제외하고 계산

  - 교호작용은 유의하지 않다고 전제하고 분산분석.

 

3. Type 3 SS : 수정제곱합, 다른 모든 독립변수들이 모두 이미 모형에 들어있다는 가정하에 마지막에 새로 추가되는 변수의 변동을 계산한 제곱합

  - 변수의 순서에 따라 SS가 변하지 않음. 가장 일반적으로 사용

$$ SS(A|B)\ for\ factor\ A $$

$$ SS(B|A)\ for\ factor\ B $$

 

 

 

'Today I Learned! > Data Science' 카테고리의 다른 글

통계학 (6) - Repeated Measure ANOVA  (0) 2023.12.06
통계학 (5) - Contrasts Test (대비검정)  (2) 2023.12.06
통계학 (3) - One-way ANOVA  (2) 2023.11.30
통계학 (2) - t-test  (1) 2023.11.29
통계학 (1) - 기초 통계  (1) 2023.11.28

댓글