[통계분석] 04. 연속형 변수, 어떻게 가설 검정을 할까?

2021. 1. 29. 17:55데이터 분석/통계분석

 

연속형 변수를 가설 검정하는 경우의 예시를 들어보겠습니다. 본론에 들어가기 전 가설 검정에 대한 용어들을 익히기 위해 해당 글을 읽고 오시면 이해하는데 도움이 될 것입니다.

 

어떤 변수의 평균이 특정값과 차이가 있을 것이다, 어떤 변수가 성별에 따른 차이가 있을 것이다, 혈압약을 먹었을 때와 안먹을 때 두 혈압의 차이가 있을 것이다. 상, 중, 하 점수를 가진 세 개의 그룹 간에 따른 차이가 있을 것이다. 하나, 두 그룹 또는 그 이상의 그룹에 대해 차이가 있는지 검정할 때 사용합니다. 

 

각 예시에 맞춰 검정하는 방법은 다음과 같습니다.

 

  • 어떤 변수의 평균이 특정값과 차이가 있을 것이다 -> 단일 표본 t-검정(1 sample t-test)

  • 어떤 변수가 성별에 따른 차이가 있을 것이다 -> 독립 표본 t-검정(2 sample t-test)

  • 혈압약을 먹었을 때와 안먹었을 때 두 혈압의 차이가 있을 것이다 -> 대응표본 t-검정(Paired t-test)

  • 상, 중, 하 점수를 가진 세 개의 그룹 간에 따른 차이가 있을 것이다 -> 분산분석(ANOVA 분석) 

 

t-검정

t-검정 정의

t-검정모집단의 분산이나 표준편차를 모를 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 통해 검정하는 모수적 통계방법입니다. 

 

t-검정은 단일 표본에 대해 검정하는 단일 표본 t-검정(1 sample t-test), 비교하는 두 집단이 서로 독립인 경우인 독립표본 t-검정(2 sample t-test)과 서로 짝을 비교하는 경우인 대응표본 t-검정(Paired t-test)이 있습니다. 표본 집단 간의 차이를 비교할 때 여러가지 방법을 사용할 수 있지만 주로 비교되는 지표는 평균입니다. 아래 가설들도 평균을 지표로 사용합니다.

 

  • 단일 표본 t-검정

    • 모집단의 평균이 특정값인지 검정하는 방법

    • 귀무가설: 모집단의 평균이 a이다.

    • 대립가설: 모집단의 평균이 a가 아니다.

 

  • 독립 표본 t-검정

    • 두 모집단의 평균에 차이가 있는지 검정하는 방법

    • 귀무가설: 두 모집단의 평균에 차이가 없다.

    • 대립가설: 두 모집단의 평균에 차이가 있다.

 

  • 대응표본 t-검정

    • 실험 이전 집단과 이후 집단이 동일한 집단일 때 실험의 효과를 검정하는 방법으로 모집단이 한 개 일 때 사용

    • 귀무가설: 실험 이전과 이후의 평균에 차이가 없다.

    • 대립가설: 실험 이전과 이후의 평균에 차이가 있다.

 

t-분포는 지난 번에 보셨을텐데요. 아래 그림과 같이 평균이 0, 좌우 대칭을 이루며 표본의 수가 n일 때 자유도(n-1)에 의해서 규정되는 분포로 적은 표본으로도 모집단 평균을 추정하려고 정규분포 대신 사용되는 확률 분포입니다. 자유도가 증가할수록 표준정규분포에 가까워지고 중심극한정리에 의해 표본의 수가 30이 넘으면 표준정규분포와 비슷한 형태를 띕니다. t-분포는 모집단이 정규분포라는 것을 알고 모분산을 모를 때 표분분산으로 대체하여 모 평균 $m$를 구하기 때문에 평균의 차이를 검정하는데 사용되는 것입니다. 

 

 

t-분포 [1]

 

 

t-value는 t-검정에서 사용되는 검정통계량으로 통계적 가설의 진위 여부를 검정하기 위해 표본으로부터 계산하는 통계량입니다. 두 집단의 차이의 평균을 표본평균들의 표준편차인 표준오차로 나눈 값이 t-value를 계산하는 방식이고 표본 평균 차이의 통계적인 지표가 되는 것입니다.

 

* 표준편차: 한 집단의 숫자들이 평균을 중심으로 퍼진 정도(모집단에 속한 다른 숫자들이 모평균과 차이나는 평균적인 정도)

* 표준오차: 표본평균들의 표준편차로 표본이 바뀔 때마다 매번 뽑히는 여러 표본 평균들이 얼마만큼의 변동이 있는가?

 

 

 

 

독립 표본 t-검정 가정

t-검정은 모수적 통계방법이기 때문에 표본이 정규성, 등분산성, 독립성을 만족할 경우 사용할 수 있습니다. 

 

그렇다면 만족하는지 어떻게 알까요? 

 

  • 정규성

    • 집단이 정규분포를 따르는가? -> 따르지 않는다면 비모수적 검정 방법인 Mann-Whitney test를 사용해야함. 

    • 표본의 수가 30개 이상이면 중심극한 정리에 의해 정규성을 가진다고 가정하지만 미만일 경우 Shapiro-Wilk test, Q-Q plot을 이용하여 정규성을 가지는지 확인 

      • Shapiro-Wil test

        • 귀무가설: 데이터가 정규분포를 따른다.

        • 대립가설: 데이터가 정규분포를 따르지 않는다. 

  • 독립성

    • 표본이 독립적인가? 

    • 분석가의 판단으로 표본으로부터 측정한 관측치가 다른 표본에 의해 영향을 받지 않는가? 를 확인. 

  • 등분산성

    • 두 분포의 분산이 동일한가? -> 동일하지 않는다면 자유도를 수정하는 Welch의 t-검정을 사용

    • 귀무가설: 분산이 동일하다

    • 대립가설: 분산이 동일하지 않다. 

 

대응 표본 t-검정 가정

대응표본 t-검정은 정규성이 만족이 되어야합니다.

  • 정규성

    • 실험 전-후 차이의 분포가 정규성을 따르는가? -> 따르지 않는다면 비모수적 방법인 Wilcoxon signed rank test 사용

 

F-검정

F-분포는 분산의 비교를 통해 얻어진 분포로 각 집단의 모집단 평균이나 분산의 차이가 있는지 검정할 때 사용됩니다. 이때 집단 간 분산의 동질성이 가정되어야하고 그렇지 않다면 그 차이를 일으키는 변인을 찾아 제거하여야합니다. 제거하지 못한다면 분산분석의 신뢰도는 잃게 되기 때문입니다. 

F-분포 [2]

ANOVA 분석

Anova 분석은 F-분포를 이용하여 3개 이상의 집단 간 차이를 검증하는 방법입니다.집단 간 차이가 있으려면 집단 간 거리는 커야하고 집단 내 거리는 작아져야합니다. 이렇게 집단 간 분산을 집단 내 분산으로 나눈 것을 F-value라고 합니다.

F-value가 커질수록 집단 간의 차이가 커지게 됩니다.  

 

 

 

  • 귀무가설: 집단 간 평균이 모두 같다.

  • 대립가설: 적어도 하나의 평균은 다르다.

 

참고

[1] www.ktword.co.kr/abbr_view.php?m_temp1=1134

[2] trampled-worm.tistory.com/57

[3] blog.naver.com/PostView.nhn?blogId=mykepzzang&logNo=221085950869

 

 

728x90