2021. 1. 29. 17:55ㆍ데이터 분석/통계분석
연속형 변수를 가설 검정하는 경우의 예시를 들어보겠습니다. 본론에 들어가기 전 가설 검정에 대한 용어들을 익히기 위해 해당 글을 읽고 오시면 이해하는데 도움이 될 것입니다.
어떤 변수의 평균이 특정값과 차이가 있을 것이다, 어떤 변수가 성별에 따른 차이가 있을 것이다, 혈압약을 먹었을 때와 안먹을 때 두 혈압의 차이가 있을 것이다. 상, 중, 하 점수를 가진 세 개의 그룹 간에 따른 차이가 있을 것이다. 하나, 두 그룹 또는 그 이상의 그룹에 대해 차이가 있는지 검정할 때 사용합니다.
각 예시에 맞춰 검정하는 방법은 다음과 같습니다.
-
어떤 변수의 평균이 특정값과 차이가 있을 것이다 -> 단일 표본 t-검정(1 sample t-test)
-
어떤 변수가 성별에 따른 차이가 있을 것이다 -> 독립 표본 t-검정(2 sample t-test)
-
혈압약을 먹었을 때와 안먹었을 때 두 혈압의 차이가 있을 것이다 -> 대응표본 t-검정(Paired t-test)
-
상, 중, 하 점수를 가진 세 개의 그룹 간에 따른 차이가 있을 것이다 -> 분산분석(ANOVA 분석)
t-검정
t-검정 정의
t-검정은 모집단의 분산이나 표준편차를 모를 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 통해 검정하는 모수적 통계방법입니다.
t-검정은 단일 표본에 대해 검정하는 단일 표본 t-검정(1 sample t-test), 비교하는 두 집단이 서로 독립인 경우인 독립표본 t-검정(2 sample t-test)과 서로 짝을 비교하는 경우인 대응표본 t-검정(Paired t-test)이 있습니다. 표본 집단 간의 차이를 비교할 때 여러가지 방법을 사용할 수 있지만 주로 비교되는 지표는 평균입니다. 아래 가설들도 평균을 지표로 사용합니다.
-
단일 표본 t-검정
-
모집단의 평균이 특정값인지 검정하는 방법
-
귀무가설: 모집단의 평균이 a이다.
-
대립가설: 모집단의 평균이 a가 아니다.
-
-
독립 표본 t-검정
-
두 모집단의 평균에 차이가 있는지 검정하는 방법
-
귀무가설: 두 모집단의 평균에 차이가 없다.
-
대립가설: 두 모집단의 평균에 차이가 있다.
-
-
대응표본 t-검정
-
실험 이전 집단과 이후 집단이 동일한 집단일 때 실험의 효과를 검정하는 방법으로 모집단이 한 개 일 때 사용
-
귀무가설: 실험 이전과 이후의 평균에 차이가 없다.
-
대립가설: 실험 이전과 이후의 평균에 차이가 있다.
-
t-분포는 지난 번에 보셨을텐데요. 아래 그림과 같이 평균이 0, 좌우 대칭을 이루며 표본의 수가 n일 때 자유도(n-1)에 의해서 규정되는 분포로 적은 표본으로도 모집단 평균을 추정하려고 정규분포 대신 사용되는 확률 분포입니다. 자유도가 증가할수록 표준정규분포에 가까워지고 중심극한정리에 의해 표본의 수가 30이 넘으면 표준정규분포와 비슷한 형태를 띕니다. t-분포는 모집단이 정규분포라는 것을 알고 모분산을 모를 때 표분분산으로 대체하여 모 평균 $m$를 구하기 때문에 평균의 차이를 검정하는데 사용되는 것입니다.
t-value는 t-검정에서 사용되는 검정통계량으로 통계적 가설의 진위 여부를 검정하기 위해 표본으로부터 계산하는 통계량입니다. 두 집단의 차이의 평균을 표본평균들의 표준편차인 표준오차로 나눈 값이 t-value를 계산하는 방식이고 표본 평균 차이의 통계적인 지표가 되는 것입니다.
* 표준편차: 한 집단의 숫자들이 평균을 중심으로 퍼진 정도(모집단에 속한 다른 숫자들이 모평균과 차이나는 평균적인 정도)
* 표준오차: 표본평균들의 표준편차로 표본이 바뀔 때마다 매번 뽑히는 여러 표본 평균들이 얼마만큼의 변동이 있는가?
독립 표본 t-검정 가정
t-검정은 모수적 통계방법이기 때문에 표본이 정규성, 등분산성, 독립성을 만족할 경우 사용할 수 있습니다.
그렇다면 만족하는지 어떻게 알까요?
-
정규성
-
집단이 정규분포를 따르는가? -> 따르지 않는다면 비모수적 검정 방법인 Mann-Whitney test를 사용해야함.
-
표본의 수가 30개 이상이면 중심극한 정리에 의해 정규성을 가진다고 가정하지만 미만일 경우 Shapiro-Wilk test, Q-Q plot을 이용하여 정규성을 가지는지 확인
-
Shapiro-Wil test
-
귀무가설: 데이터가 정규분포를 따른다.
-
대립가설: 데이터가 정규분포를 따르지 않는다.
-
-
-
-
독립성
-
표본이 독립적인가?
-
분석가의 판단으로 표본으로부터 측정한 관측치가 다른 표본에 의해 영향을 받지 않는가? 를 확인.
-
-
등분산성
-
두 분포의 분산이 동일한가? -> 동일하지 않는다면 자유도를 수정하는 Welch의 t-검정을 사용
-
귀무가설: 분산이 동일하다
-
대립가설: 분산이 동일하지 않다.
-
대응 표본 t-검정 가정
대응표본 t-검정은 정규성이 만족이 되어야합니다.
-
정규성
-
실험 전-후 차이의 분포가 정규성을 따르는가? -> 따르지 않는다면 비모수적 방법인 Wilcoxon signed rank test 사용
-
F-검정
F-분포는 분산의 비교를 통해 얻어진 분포로 각 집단의 모집단 평균이나 분산의 차이가 있는지 검정할 때 사용됩니다. 이때 집단 간 분산의 동질성이 가정되어야하고 그렇지 않다면 그 차이를 일으키는 변인을 찾아 제거하여야합니다. 제거하지 못한다면 분산분석의 신뢰도는 잃게 되기 때문입니다.
ANOVA 분석
Anova 분석은 F-분포를 이용하여 3개 이상의 집단 간 차이를 검증하는 방법입니다.집단 간 차이가 있으려면 집단 간 거리는 커야하고 집단 내 거리는 작아져야합니다. 이렇게 집단 간 분산을 집단 내 분산으로 나눈 것을 F-value라고 합니다.
F-value가 커질수록 집단 간의 차이가 커지게 됩니다.
-
귀무가설: 집단 간 평균이 모두 같다.
-
대립가설: 적어도 하나의 평균은 다르다.
참고
[1] www.ktword.co.kr/abbr_view.php?m_temp1=1134
[2] trampled-worm.tistory.com/57
[3] blog.naver.com/PostView.nhn?blogId=mykepzzang&logNo=221085950869
'데이터 분석 > 통계분석' 카테고리의 다른 글
[통계분석] 06. 회귀분석 그게 뭐야? (0) | 2021.02.02 |
---|---|
[통계분석] 05. 범주형 변수, 어떤 검정을 할 수 있을까? (0) | 2021.02.02 |
[통계분석] 03. 가설 검정의 기초를 이해하자. (0) | 2021.01.29 |
[통계분석] 02.모수를 왜 추정하고, 어떻게 추정하는거지? (0) | 2021.01.29 |
[통계분석] 01. 확률분포는 머신러닝에서 어떻게 사용될까? (1) | 2021.01.29 |