[통계분석] 05. 범주형 변수, 어떤 검정을 할 수 있을까?

2021. 2. 2. 22:27데이터 분석/통계분석

 

이번 글은 범주형 변수에 대한 가설을 검정하는 독립성 검정과 적합성 검정, 동질성 검정에 대한 내용입니다. 글의 내용은 순천향대학교 김영민 교수님의 강의를 바탕으로 정리한 자료임을 먼저 말씀드립니다.


 

 

순서

1. 분할표와 카이제곱

2. 카이제곱 검정

 

1. 분할표

검정에 대해 알아보기 전 분할표에 대해 알아보겠습니다. 분할표는 아래 표와 같이 데이터를 분류하는 통계 기법 하나로 두 범주형 변수에 대한 교차 빈도수를 나타낸 표입니다. 두 변수의 범주들이 교차하는 칸마다 각 변수의 범주를 동시에 갖는 관측값들의 수를 그 칸의 도수로 기록한 것입니다. 도수분포표를 2차원으로 확장한 형태라고 생각하시면 됩니다. 

 

이 표는 파트너가 존재하는 사람들에 따라 고객 이탈 유무에 차이가 있는지 확인하기 위한 분할표입니다. Partner가 있는 고객과 그렇지 않은 고객 중 어떤 고객들이 더 이탈할 것 같나요? 아마 비율을 계산해서 더 높은 것을 선택할 것입니다. 하지만 이 데이터에서는 파트너가 없는 고객이 이탈할 비율은 1200/3641 = 0.33, 파트너가 있는 고객이 이탈할 비율은 0.20으로 크게 차이가 나지 않죠. 아마 누군가는 어떤 고객들이 더 이탈할 것이라고 말하기 어려울 정도의 차이 아닌가?라고 생각할 수도 있을 것입니다.

고객이탈유무에 관한 분할표 예시

 

그렇다면 다음과 같이 표에 합계만 적혀져있다면 어떻게 차이를 비교할 것인가요? 

값이 적혀져 있지 않는 분할표

각 고객들의 이탈 수는 모르기 때문에 이탈 고객들의 비율을 구해서 각각 값을 구한 후 비교할 것입니다. 이탈이 Yes이고 파트너가 없는 고객의 칸은 (1869/7043) x 3641 = 966.21 이 될 것입니다. 모든 칸의 값을 채워보겠습니다.

기대빈도 계산

이렇게 계산하여 채운 빈도는 파트너의 유무에 따른 차이가 없다는 가정하에 구한 값으로 이를 기대빈도라고 합니다. 그리고 처음에 데이터를 기반으로 계산한 빈도를 관찰빈도라고 합니다. 관찰빈도와 기대빈도의 차이가 클수록 파트너 유무에 따른 차이가 존재한다라고 할 수 있습니다.

관찰빈도와 기대빈도

모든 셀에 대해 관찰빈도와 기대빈도의 차이를 제곱한 값의 합을 계산한다. 이 계산은 기대빈도의 크기가 클수록 관찰빈도와 기대빈도의 차이는 작다고 느끼기 때문에 각 셀에 대해 $(O- E)^2$을 $E$로 나눕니다. 이처럼 파트너 유무에 따른 차이가 없다고 가정할 때 예상되는 기대빈도와 관찰빈도의 차이를 계산한 값이 카이제곱입니다.

 

수식

2. 카이제곱 검정

이제 가설을 세워보겠습니다. 처음 질문은 Partner가 있는 고객과 그렇지 않은 고객 중 어떤 고객들이 더 이탈할 것 같나요? 였습니다. 즉, Partner가 있는 고객과 그렇지 않은 고객의 이탈에 차이가 있는가?입니다. 이때,

 

귀무가설: Partner유무에 따라 이탈하는 비율은 차이가 없다.

대립가설: Partner유무에 따라 이탈하는 비율은 차이가 있다.

 

가설은 세워졌습니다. 이 가설을 다르게 표현하면

 

[독립성 검정]

귀무가설: Partner 유무는 고객 이탈과 관계가 없다.

대립가설: Partner 유무는 고객 이탈과 관계가 있다.

 

또는

 

[동질성 검정]

귀무가설: Partner 유무는 고객 이탈 비율은 동일한 분포이다.

대립가설: Partner 유무는 고객 이탈 비율은 동일하지 않은 분포이다.

 

로 나타낼 수 있습니다. 관계가 있는지 없는지 검정하는 것을 독립성 검정, 분포가 동일한지 아닌지 나타내는 방법을 동질성 검정이라고 합니다. 

 

두 변수 모두 범주형 변수일 때 독립성 여부를 검정하는 검정통계량은 관찰빈도와 기대빈도의 차이를 이용하여 계산한 $X^2$통계량입니다. $X^2$은 자유도가 커질수록 분포가 오른쪽으로 기울어지는 다양한 분포 함수의 형태를 갖고 있습니다.

 

자유도(k)에 따른 $x^2$ 분포

$X^2$ 통계량 <임계치: 표본에서 관찰된 차이가 우연히 발생한 차이로 판단하고 귀무가설 채택

$X^2$통계량 <임계치: 표본에서 관찰된 차이가 우연히 발생하기에는 큰 차이라고 판단하고 귀무가설 기각

 

(이 부분에 대한 개념이 헷갈리신다면 이곳을 참고하세요.)

 

 

카이제곱을 이용하는 검정방법에는 독립성 검정과 동질성 검정 외에 적합성 검정도 있습니다. 적합성 검정은 관측값들이 어떤 이론적 분포를 따르고 있는지를 검정하는 방법입니다.

 

귀무가설: 데이터가 정규분포를 따르고 있다.

대립가설: 데이터가 정규분포를 따르고 있지 않다.

 


연속형 변수에서는 독립변수와 종속변수의 상관관계를 보고 싶을 때 상관계수를 확인했었습니다. 범주형 변수일 때는 독립성 검정을 이용하여 상관성을 확인할 수 있습니다. 비록 상관관계처럼 수치가 나오는 건 아니지만요! 모형에 적용할 때 이러한 상관성을 이용하여 특정 변수를 제거해서 모델의 설명력을 높일 수도 있습니다. 

728x90