[통계분석] 03. 가설 검정의 기초를 이해하자.

2021. 1. 29. 17:55데이터 분석/통계분석

 

이번 글은 가설 검정에 대해 내용을 다뤄보겠습니다. 가설 검정은 통계적으로 검증의 대상이 되는 가설을 검정하는 것을 말합니다. 

 

귀무가설, 대립가설


통계적으로 가설을 세울 때 귀무가설(H0), 대립가설(H1) 두가지 가설을 설정합니다.

귀무가설은 "모수가 특정한 값이다" 또는 "두 모수의 값은 값다" 등과 같이 판단이 옮다는 가정 하에 설정하는 가설이고 대립가설은 귀무가설을 반박하는 가설로 "모수가 특정한 값이 아니다" 또는 " 두 모수의 값은 다르다" 와 같은 가설입니다. 

 

검정통계량


검정통계량은 통계적 가설의 진위 여부를 검정하기 위해 표본으로부터 계산하는 통계량을 말합니다. 검정통계량의 값이 어떤 기준을 벗어나는지 확인하여 가설의 진위여부를 결정합니다. 검정통계량을 구하기 위해서는 먼저 데이터의 분포를 정규분포, t-분포, 카이제곱분포, F분포 등 어떤 분포를 따르는지 미리 가정해야합니다. 가정된 분포 하에 검정통계량을 산출합니다. 

 

유의수준 

표본으로부터 모집단의 정보를 예측할 때 100% 확실하게 예측할 수 있는 것이 아니기 때문에 오차를 고려해야합니다. 이때 틀릴 확률 즉, 귀무가설이 옳은데도 불구하고 이를 기각하는 확률의 크기를 유의수준이라고 합니다. 유의수준은 검정통계량을 구하는 것과는 무관하게 검정을 실시하는 사람의 판단에 따라 결정합니다. 보통 유의수준은 1%, 5%, 10%를 주로 이용합니다. 

 

기각역

유의수준 a가 정해졌을 때, 검정통계량의 분포에서 이 유의수준의 크기에 해당하는 영역을 귀무가설이 기각되는 영역(대립가설을 채택하는 영역)이라고 하는데 이를 기각역이라고 합니다.

 

이를 그림으로 나타내면 다음과 같습니다.

 

가설 검정 단계

1. 가설 세우기

- 귀무가설 기각을 쉽게하려면 유의수준을 크게하여 기각역을 넓게 만들 수 있음. 그럼 대립가설을 채택할 가능성이 높아짐.

 

2. 유의수준 결정

 

3. 귀무가설이 옳다는 전제 하에 검정통계량을 구함.

 

4. 검정통계량 값이 기각역에 속하는 가를 판단하고 기각역에 속하면  귀무가설을 기각하고 그렇지 않으면 귀무가설을 채택한다.

 

4-(1). 검정통계량 값이 기각역에 속하는 지 수치상으로 알 수 없기 때문에 유의확률을 이용하여 구하는데 유의확률은 검정통계량에 의해 결정되는 구간으로 제 1종 오류가 발생환 확률임.

 -> 유의확률(p-value)<유의수준: 귀무가설을 기각하고 대립가설을 채택.

 -> 유의확률(p-value)>유의수준: 귀무가설을 채택하고 대립가설을 기각.

 

양측검정, 단측검정

가설을 세울 때 검정하는 방식에는 양측검정과 단측검정으로 나뉩니다. 예를 들면 다음과 같은 가설을 세울 수 있습니다.

 

  • 양측검정
    • H0: 모수의 평균은 0이다.
    • H1: 모수의 평균은 0이 아니다.

양측검정

  • 단측검정
    • H0: 모수의 평균은 0이다.
    • H1: 모수의 평균은 0보다 작다.(좌측검정) or 모수의 평균은 0보다 크다.(우측검정)

좌측검정/우측검정

 

가설검정 결과의 오류

가설검정은 확률을 기반으로 하기 때문에 오류의 가능성을 갖고 있습니다. 오류의 내용은 다음과 같습니다.

 

  • 제 1종 오류: 귀무가설이 참임에도 기각하는 오류(유의확률)
  • 제 2종 오류 귀무가설이 거짓임에도 채택하는 오류

 

참고

nittaku.tistory.com/448

728x90