- 이 글은 유튜브 Sapientia a Del, 곽기영 교수님, 통계파랑 님을 참고하였습니다.
Two-way ANOVA란
- One-way ANOVA에서 독립변수 한 개 추가
- Main Effect(주 효과) : 각 독립변수의 종속변수에 대한 직접적인 영향력
- Interaction effect(교호작용( : 한 독립변수의 main effect가 다른 독립변수의 level(group)에 따라 원래의 선형관계가 비선형으로 변하는 경우
- 다양한 형태로 존재, 주효과도에서 교차점
- 교호작용이 있으면 두 독립변수를 이용하여 다양한 결과 예측가능
Two-way ANOVA
- 독립변수가 두 개이므로 주효과가 두개라서 F-value가 두 개, interaction이 있으므로 F-value 추가 필요
- Between Variance 3개 필요 : F-value 3개 구할 것이라서
- Within Variance 통일 : 일종의 비교대상이나 기준이므로 다를 경우 객관성 유지 불가능
$$ F-value_{main\ 1}= \frac{Between\ variance_{main\ 1}}{Within\ Variance} = \frac{\frac{SS_{main1}}{df_{1, main\ 1}}}{\frac{SS_{within}}{df_{2, within}}} $$ $$ F-value_{main\ 2}= \frac{Between\ variance_{main\ 2}}{Within\ Variance} = \frac{\frac{SS_{main2}}{df_{1, main\ 2}}}{\frac{SS_{within}}{df_{2, within}}} $$ $$ F-value_{interaction}= \frac{Between\ variance_{Interaction}}{Within\ Variance} = \frac{\frac{SS_{interaction}}{df_{1, main\ interaction}}}{\frac{SS_{within}}{df_{2, within}}} $$
- 각 주 효과와, 교호작용에 대한 통계적 가설
$$ H_{01}:\mu_{11}=...=\mu_{1k}, k:group num $$ $$ H_{a1}:\mu_{1i}\neq\mu_{ij}\ for\ some\ ij $$
$$ H_{02}:\mu_{21}=...=\mu_{2k}, k:group num $$ $$ H_{a2}:\mu_{2i}\neq\mu_{ij}\ for\ some\ ij $$
$$ H_{03} : 교호작용은\ 없다, H_{a3} : 교호작용은\ 있다 $$
- 적어도 한 개의 평균값이 다르다는 의미이고, 그룹 별 차이를 알 수 없으므로 사후검정 필요, 그래프 확인 필요(One-way ANOVA와 동일) ⇒ 이 원칙은 두 개의 Main effect에 대한 F-value가 유의할 경우에만 해당
- 교호작용 F-value가 유의할 경우 복잡한 현상 ⇒ 경우의 수가 너무 많이 늘어남, 유의할 경우 그래프를 기반으로 해석
Two-way ANOVA 실습
- 세제의 세척력은 세제 3종류와 물의 온도에 영향을 받는다.
- 비교 대상이 되는 그룹 내 분산 계산
$$ SS_{within} = (4-5)^2 + (5-5)^2 + (6-5)^2 + (5-5)^2+(7-9)^2+(9-9)^2+...+(10-12)^2+(13-12)^2=37.0 $$ $$ df_{within}=(r-1)\times k_1 \times k_2 = 3 \times 2\times 3=18 $$ $$ Within\ Variance = \frac{SS_{within}}{df_{within}}=\frac{37}{18}=2.06$$
- 첫 주효과(세탁세제)에 대한 Between variance : 두 세탁세제 그룹의 평균값이 전체 평균으로부터 얼마나 멀어져 있는지. Super mean, Best mean을 grand mean에서 뺴고 제곱합.
$$ SS_{main\ 1}=r \times k_2 \times {(8.2-9.1)^2+(10-9.1)^2}=12\times {(8.2-9.1)^2+(10-9.1)^2} = 20.17$$
- 12 : Super, Best 모두 총 12회 실험, 평균값 8.2, 10모두 12개의 데이터의 평균값
$$ df_{main\ 1}=k_1-1=1 $$ $$ Between\ Variance =MS_{main\ 1} = \frac{SS_{main\ 1}}{df_{main\ 1}}=\frac{20.17}{1}=20.17 $$
- 두 번째 주효과(물 온도)에 대한 Between Variance
$$ SS_{main\ 2}=r \times k_1 \times {(5.0-9.1)^2+(11.0-9.1)^2+(11.3-9.1)^2}=8\times {(5.0-9.1)^2+(11.0-9.1)^2+(11.3-9.1)^2} = 200.33 $$ $$ df_{main\ 2}=k_2-1=2 $$ $$ MS_{main\ 2} = \frac{SS_{main\ 2}}{df_{main\ 2}}=\frac{200.33}{2}=100.17 $$
- 교호작용의 Between Variance
$$ SS_{interaction} = r\times {(5.0-8.2-5.0+9.1)^2 + (9.0-8.2-11.0+9.1)^2+(10.5-8.2-11.3+9.1)^2+(5.0-10.0-5.0+9.1)^2+(13.0-10.0-11.0+9.1)^2+(12.0-10.0-11.3+9.1)^2}=16.33$$
⇒ 각 셀이 걸쳐져 있는 두 그룹의 평균값ㅇ르 빼고 마지막에 전체 평균값을 더하는 방식
$$ df_{Interaction}=(k_1-1)\times(k_2-1)=2\times1=2 $$ $$ MS_{interaction}=\frac{SS_{interaction}}{df_{interaction}}=\frac{16.33}{2}=8.17$$
- 총 F-value
$$ F-value_{detergent}=20.167 / 2.056=9.81 $$ $$ F-value_{temperature}=100.167 / 2.056=48.73 $$ $$ F-value_{interaction}=8.167 / 2.056=3.97$$
⇒ 결과 모두 유의
- 사후 검정 : Tukey
- detergent : 유의
- temperature : warm, hot은 비슷
- interaction : 그룹 수가 총 6개라서, 총 15개의 비교 ⇒ 그래프가 이해하기 더 쉬움, 이후 tukey p-val 값으로 비교
- cold & hot : super와 best 차이가 없어보임
- warm에서는 super와 best의 차이 존재
- super : hot & warm 겹쳐보임, cold는 세척력 낮음
- best : hot & warm 겹쳐보임, cold는 세척력 낮음
Sum of Squares의 종류
1. Type 1 SS : 순차 제곱합, 변수를 한 개씩 순차적으로 추가하면서 제곱합 계산
- 변수의 순서에 따라 SS가 변할 수 있음. 중요변수를 먼저 감안한 뒤 추가변수 테스트 하거나, 변동 불가능한 변수를 먼저 고려한 뒤에 테스트
- 일반적으로 많이 사용하지 않음
2. Type 2 SS : interaction은 제외하고 계산
- 교호작용은 유의하지 않다고 전제하고 분산분석.
3. Type 3 SS : 수정제곱합, 다른 모든 독립변수들이 모두 이미 모형에 들어있다는 가정하에 마지막에 새로 추가되는 변수의 변동을 계산한 제곱합
- 변수의 순서에 따라 SS가 변하지 않음. 가장 일반적으로 사용
$$ SS(A|B)\ for\ factor\ A $$
$$ SS(B|A)\ for\ factor\ B $$
'Today I Learned! > Data Science' 카테고리의 다른 글
통계학 (6) - Repeated Measure ANOVA (0) | 2023.12.06 |
---|---|
통계학 (5) - Contrasts Test (대비검정) (2) | 2023.12.06 |
통계학 (3) - One-way ANOVA (2) | 2023.11.30 |
통계학 (2) - t-test (1) | 2023.11.29 |
통계학 (1) - 기초 통계 (1) | 2023.11.28 |
댓글