본문 바로가기
Today I Learned!/Data Science

통계학 (8) - 카이제곱 검정

by ENTJ의 자기계발 2023. 12. 13.

- 이 글은 유튜브 Sapientia a Del, 곽기영 교수님, 통계파랑 님을 참고하였습니다.

 

카이제곱 검정 (교차분석)


- 독립변수와 종속변수 모두 명목척도, 자료의 값은 갯수(count)이어야 함

- 목적 

  - 변수가 한 개인 경우 : 변수 내 그룹간의 비율이 같은지 다른지

    - 그룹이 2개 : binomial test / 이상일 경우 카이제곱

  - 변수가 두 개인 경우 : 변수 사이의 연관성이 있는지 없는지 예) 휴대폰 사용과 뇌암의 연관성

$$ \chi^2 = Σ \frac{(O-E)^2}{E},\ df=범주의\ 개수-1 $$

  - O (Observed) : 관찰빈도, 데이터에서 자연적으로 주어짐

  - E (Expected) : 기대빈도, 별도의 방법으로 구해야

  - 예) 고객 데이터에서 특별한 이유가 없는 한, 남/녀 고객의 빈도는 동일하게 나타나야 할 것이라는 가정

- 사실 유의해도 할 이야기가 많지는 않다.

 

 

일원 카이제곱 검정


- 한 개의 변수가 명목척도, 2개 이상의 범주를 가짐

예제) payment method라는 변수는 4개의 범주(bank transfer/credit card/electronic check/mailed check). 고객의 지불 방법이 차이가 나는지 알고 싶다면.(각 범주별로 고객의 수가 다를 이유가 없는데 실제로 그런지 알고 싶다, 각 범주별 고객의 수는 비슷할 것이라고가정)

$$ H_0:P(BT)=P(CC)=P(EC)=P(MC)=0.25,\quad H_a=proportion\ of\ 4\ categories\ are\ not\ even $$

 

df = 4 - 1 =3

$\chi^2_{df=3}=278.95$

p-value < 0.001

 

 

 

 

- "다르다" : 사전에 정해진 기대빈도와 다르다.

- 만약 기존의 연구나 혹은 이론 등에 의해서, 각 범주의 빈도가 다르게 나올 수 있다면, 기대빈도 자체를 바꿔서 테스트 해야 함. ⇒ 적합도 (Goodness of fit)

 

 

이원 카이제곱 검정


- 두 개의 변수 모두 명목척도, 명목척도는 2개 이상의 범주를 가짐

- 가장 단순한 형태는 $2\times 2$ 분석

- 분할표 (contingency table)사용 : 데이터의 빈도만 단순화 된 표에 작성, 행과 열로 나누어 빈도를 정리 ⇒ 행과 열(두 변수)사이에 어떠한 연관성이 있는지 확인해보는 것

예제) 200명의 암환자 : 진단이 뇌암인지, 휴대폰 사용 3년 이상인지.

- 뇌암환자 72%가 진단 전에 3년 이상 cell phone 사용했다.

P(CP|BC) = 18/25 = 0.72

- 다른 암환자 46%가 진단 전에 3년이상 cell phone 사용했다.

P(CP|NBC) = 80/175 = 0.46

- 이원 카이제곱검정

  - 목적 : brain cancer와 cell phone 사용 간의 연관성(인과관계가 아님)

  - 가설 : 귀무가설 → 두 사용은 연관성이 없다(상호독립) / 대립가설 → 두 사용간에는 연관성이 있다

  - 기대빈도 계산법 : $E=\frac{Row\ Total\ \times\ Column\ Total}{Grand\ Total}$ 

$$ 12.25 = 98\times 25 /200, \quad 12.75=25\times 102/200,\quad 85.75=98\times175/200,\quad 89.25=102\times 175 / 200$$

$$ \chi^2=\frac{(18-12.25)^2}{12.25}+\frac{(7-12.75)^2}{12.75}+\frac{(80-85.75)^2}{85.75}+\frac{(95-89.25)^2}{89.25}=6.048,\quad df=(2-1)\times(2-1)=1,\quad p-value=0.014$$

⇒ brain cancer와 cell phone 사용 간 어떤 연관성이 있다. 연관성이 인과관계는 아님

 

→ 범주 간의 확률 차이가 얼마나 큰 지 알 수 없음 ⇒ 신뢰구간 Confidence interval 이용

 

 

카이제곱 검정 이외


- 전제조건(한계점)

  - 랜덤 샘플링

  - 독립성

    - 각 범주가 서로 배타적이어야 함

    - 한 대상이 하나 이상의 범주에 들어갈 수 없음

  - 각 셀의 기대빈도가 5이상이어야 함

    - 기대빈도를 5이상으로 맞추기 위해 경우에 따라 범주를 합쳐야 함

    - 만약 범주를 합칠 수 없다면, fisher's exact test 나 likelihood ratio test (G-test) 필요

  - 만약 df=1?

    - 일원 카이제곱 : 범주 2개, 이원 카이제곱 : 2x2인 경우

    - 비연속성의 조건부 확률을 연속성의 카이제곱 분포에 적용함으로써 문제 발생 ⇒ 범주의 경우가 너무 적으면 연속성이라는 개념을 충족하기 어려워 짐 

    - 일원 카이제곱 : yate's correction 또는 chi^2 continuity correction 사용

    - 이원 카이제곱 : 카이제곱 테스트와 yate's correction 둘다 하면서 결과가 다르다면 fisher's exact test사용

 

- $2times 2$의 경우

  - 상대 위험도 (Relative Risk)

    - 두 확률의 차이인 $P_1 - P_2$ 가 아닌 $P_1 / P_2$ 이용(비율)

    - 상대 위험도가 1이라면 두 사건이 발생할 확률은 동일, 1보다 크다면 위험이 증가, 작다면 감소

    - 예제) 휴대폰 사용자가 그렇지 않는 사람에 비해 약 2.67배 BC에 걸릴 확률이 높다

  - 교차비 / 오즈비

    - $Odds = \frac{p}{1-p} $

    - 만약 p=3/4, odds=(3/4) / (1/4) = 3 어떤 사건이 일어날 확률이 3/4이라면 오즈는 이사건이 일어나지 않을 확률 대비 일어날 확률은 3배 많다는 것

    - 오즈비 : 두 오즈의 비율 $ θ = \frac{\frac{P(A|B)}{1-P(A|B)}}{\frac{P(A|C)}{1-P(A|C}} $

    ⇒ 오즈비를 사용하면 상대위험도에 비해, 행 열을 바꾸어도 값이 일정하게 나옴

    - 예제) P(BC|CP) = P(A|B) = 18/98 = 0.184 / P(BC|NCP) = P(A|C)=7/102=0.069

$$ θ = \frac{\frac{0.184}{0.816}}{\frac{0.069}{0.931}}=\frac{0.225}{0.074}=3.04$$

⇒ BC가 발생할 오즈는 핸드폰 사용자가 그렇지 않은 사람보다 3배 높음

    - P(CP|BC) = P(A|B)=18/25 =0.72 / P(CP|NBC)=P(A|C)=80/175=0.457

$$ θ = \frac{\frac{0.72}{0.28}}{\frac{0.457}{0.543}}=\frac{2.57}{0.842} = 3.05$$

⇒ 핸드폰을 가지고 있을 오즈는 BC환자보다 NBC환자가 약 3배 높다

    - 오즈비 쉽게 계산하는 방법 $θ = \frac{n_{11}\times n_{22}}{n_{12} \times n_{21}} $

 

- 두 명목척도인 변수가 연관성이 있을 경우

  - 얼마나 상관관계가 높은 지 궁금할 때, 상관계수 구하기 : contingency coefficient, Phi and Cremer's V

  - 만약 변수가 순위척도인 경우 연관성이 있다면, 상관계수? : Kendall's tau-b, Gamma

 

댓글