2021. 1. 29. 17:54ㆍ데이터 분석/통계분석
모수를 추정하는 이유
통계의 기본 전제는 분석하고자 하는 대상 전체(모집단)를 분석하기에는 많은 시간과 비용이 들기 때문에 모집단의 일부인 표본을 통해 모집단의 특성을 파악합니다. 하지만 표본을 통해 추정하는 것은 100% 일치한다라고 할 수 없습니다. 일부에 대한 특성을 파악하고 모집단과 얼마나 일치하는지를 확인하는 것이기 때문에 추정한 값과 실제값의 차이인 오차가 존재할 수 밖에 없습니다.
즉 정리하면 우리는 모집단의 일부인 표본의 통계량을 통해 모수를 추정합니다. 모수를 추측해보는 과정을 통계학에서는 추정이라고 말합니다. 그리고 추출된 표본으로부터 모집단의 일반적인 특성을 추론해내는 것을 통계적 추론이라고 합니다. 통계적 추론을 할 때는 추론 결과를 100% 확신할 수 없으므로 본질적으로 불확실성으로 수반하고 결론의 불확실한 정도를 반드시 언급해야합니다. 추정을 할 때 생기는 오차를 표준오차라고 합니다.
그럼 어떻게 추정을 하는 걸까요?
모수를 추정하는 방법
점추정
모수를 추정하는 방법에는 점추정과 구간추정 2가지 방법이 있습니다. 점추정은 모수를 표본으로 얻은 정보를 이용해 특정한 하나의 값으로 추정하는 방법입니다. 예를 들어 표본평균과 표본분산으로 모집단의 평균과 분산을 추정하는 것을 말합니다. 이와 같이 모수를 추정하기 위해 만들어진 통계량, 표본 평균, 표본 분산을 추정량이라고 합니다. 관측값으로부터 계산된 추정량의 값, 즉 추정량의 구체적인 수치 값을 추정치라고 합니다. 표본을 선택할 때는 어떤 개체가 표본으로 뽑힐 가능성이 다른 개체에 비해 높다면 그 표본을 모집단을 대표하는 표본이라고 볼 수 없기 때문에 표본으로부터 구한 결과를 나타낼때는 무작위로 선택했음을 명시하는 것이 중요합니다. 이는 표본이 특정 대상으로 치우치지 않았음을 밝히는 것을 말합니다.
추정치는 표본에 어떤 개체가 포함되느냐에 따라 값이 달라지고 그 형태는 아래 네 개의 그림 중 1개가 될 것입니다.
아래 그림에서 표본으로부터 구한 추정치들이 첫번째 그림처럼 분포해있으면 편향되었다고하고 두번재 그림처럼 분포해있으면 분산이 크다고 합니다. 세번째 그림은 분산도 크고 편향되어있는 경우죠. 우리가 목표하는 분포는 편향되어있지도 않고 분산도 작아 모수와 오차가 적은 경우인 마지막 그림입니다. 표본의 크기가 충분히 커지면 서로 다른 표본으로부터 구한 추정치는 유사한 값을 갖게 됩니다.
이렇듯 추정량에 따라 추정치들이 달라지기 때문에 모수와 오차가 적은 추정치를 구하기 위해서는 추정량을 선정하는 기준을 고려해야합니다.
1. 불편성
- 추정량의 평균과 모수의 차이가 없는가?
- 즉, 추정치들이 모수를 중심으로 분포하는 경우를 말하고 이 경우를 "편향되지 않았다" 라고 말함.
- 불편성의 성질을 가지는 추정량을 불편 추정량이라함.
불편 추정량에 대해 좀 더 알아보겠습니다. 불편 추정량의 정의는 다음과 같습니다.
표본으로부터 평균을 구하는 경우, 추정량 $\bar{X} = 1\over{n_sum{i=1}^nx_i}$를 이용해서 표본평균을 구하면 모집단으로부터 추출 가능한 모든 표본을 고려했을 때 나올 수 있는 표본평균들의 평균 $E(\bar{X})$가 모평균($m$)이다. 따라서 $\bar{X} = 1\over{n_sum{i=1}^nx_i}$ 는 모평균에 대해 편향되지 않은 추정량, 즉 불편 추정량이라고 한다.
2. 효율성
- 모수를 추정할 때 여러 개의 불편 추정량이 존재한다면, 추정량의 분산이 작은 것을 선택
- 분산이 작을수록 모수를 정확하게 추정할 가능성이 높기 때문.
3. 일치성
- 표본의 크기가 커질수록 추정량이 모수에 접근적으로 근접하는가?
- 앞서 말씀드렸던 표본이 충분히 커지면 서로 다른 표본으로부터 구한 추정치는 유사한 값을 갖게 될 것이다에 대한 기준.
4. 충분성
- 어떤 추정량이 모수에 대해 가장 많은 정보를 제공하는가?
- 동일한 표본으로부터 얻은 추정량이 모집단의 모수에 대한 정보를 더 많이 제공할 경우 이때의 추정량을 충분추정량이라 함.
점추정은 표본 오차로 인해 모수와 일치하기 어렵고 추정의 불확실 정도(추정값이 얼마나 정확하게 모수를 추정하고 있는가?)를 표현하기 어렵습니다. 하나의 추정값에 오차의 개념을 더하고 뺌으로써 계산되는 구간 추정방법을 이용합니다.
구간추정
구간추정은 추정량의 분포를 이용하여 표본으로부터 모수 값을 포함할 것이라 예상되는 구간을 제시하는 추정 방법입니다. 이때 이 구간을 신뢰구간이라 하고 매 표본마다 계산되는 신뢰구간을 다를 수 있습니다. 쉽게 생각하면 모수가 구간의 상한 a와 구간의 하한 b 사이, 즉 어떤 구간 내에 몇 %의 확률로 존재할 것인가를 추정한다고 할 수 있습니다. 그렇다면 신뢰구간은 어떻게 추정하는 걸가요?
구간 추정을 표기하는 법은 [구간의 하한|구간의 상한]으로 표현하고 구간의 크기기 작을수록 모수를 보다 정확하게 추정할 수 있습니다. 그렇다면 신뢰구간은 어떻게 추정하는지 살펴보겠습니다.
통계적 추론에서 다루는 많은 기법들은 이런 불확실성을 계량화하는 노력입니다. 통계적 추론은 주어진 현상에 관한 통계적 모델로 주어진 현상이 어떤 모델에 의해 발생했다고 가정하고 그 모델에서 발생한 표본을 안다면 그 모델에서 일반적으로 어떤 현상이 발생할지를 예측할 수 있는 것입니다. 즉 가정과 데이터를 통해 통계적 모델을 만들고 다양한 결론을 도출해내는 것이죠. 통계적 추론에는 모수를 추정하는 방법과 가설을 검정하는 방법이 있습니다. 지금까지 모수를 추정하는 방법에 대해 알아보았고 다음 글은 두 집단 사이의 측정값에 차이가 관찰되었다면 이 차이가 유의미한 것인지 검정하는 가설 검정에 대해 알아보겠습니다.
통계 분석에 사용되는 기본 용어
- 변수: 문자를 이용해 자료를 표현하는 방법
- 모집단: 분석하고자 하는 대상 전체
- 표본: 모집단의 일부
- 모수: 모집단을 대표하는 값
- 통계량: 표본으로부터 얻은 자료의 대표값으로 통계량 중에서 모수를 추정하는 값을 추정량이라고 합니다.
- 평균
- 이상치에 민감함.
- 수량으로 관측된 자료인 연속형 변수에만 사용 가능
- 하나의 값을 가짐.
- 중위수
- 자료를 크기 순으로 정리했을 때 가운데 위치하는 관측값으로 이상치에 민감하지 않음.
- 수량으로 관측된 자료인 연속형 변수에만 사용 가능
- 하나의 값을 가짐.
- 최빈값
- 주어진 자료에서 가장 빈도수가 큰 값으로 이상치에 민감하지 않음.
- 하나 이상의 값을 가질 수도 있음.
- 양적자료와 질적자료 모두에서 사용 가능.
- 분산
- 자료의 흩어진 정도를 측정하는 통계량
- 분산이 크면 평균을 중심으로 퍼져있고 작으면 평균을 중심으로 몰려있는 것을 의미
- 각 관측값에서 평균을 뺀(편차)것의 제곱에 합을 n-1로 나눈 것
- 편차의 제곱을 하는 이유: 편차의 합은 0이기 때문.
- n-1로 나누는 이유: n-1은 자유도로 불리며 표본 분산을 구할 때 자료의 수-1로 나눔.
- 분산은 작을수록 예측하기가 더 쉽기 때문에 작을수록 좋음.
- IQR
- IQR은 다섯숫자요약으로 평균과 표준편차 두 개의 숫자만으로는 표본을 통해 모집단을 추정하기가 어렵습니다. 예를 들어
- 평균
통계에서 사용되는 데이터의 유형은 크게 범주형 데이터, 연속형 데이터 2가지 입니다.
범주형 데이터는 크기 비교는 되지 않고 구분이 가능한 데이터로 명목형 변수와 순서형 변수로 나뉩니다. 명목형 변수는 크기 비교가 불가능한 성별과 같은 변수를 말하고 순서형 변수는 학생들의 성적 등급처럼 A, B, C로 나타나는 변수입니다.
연속형 데이터는 정량적 데이터로 측정이 가능한 데이터로 등간척도와 비율척도로 나뉩니다. 등간척도는 시간과 같은 측정이 불가능한 값 비율척도는 키, 몸무게와 같은 측정이 가능한 값을 말합니다.
데이터의 유형에 따라 다르게 분석을 적용해야합니다.
어떤 그룹 간 차이를 검증할 때 변수가 연속형인 경우 T-test, Anova 분석을 이용하고 범주형인 경우 Chi-Square을 이용하여 검정합니다. 인과관계를 확인하는 회귀 분석을 사용할 때는 종속변수가 연속형인 경우 선형 회귀분석, 종속 변수가 범주형인 경우 로지스틱 회귀분석을 사용합니다.
그림 참고
'데이터 분석 > 통계분석' 카테고리의 다른 글
[통계분석] 05. 범주형 변수, 어떤 검정을 할 수 있을까? (0) | 2021.02.02 |
---|---|
[통계분석] 04. 연속형 변수, 어떻게 가설 검정을 할까? (0) | 2021.01.29 |
[통계분석] 03. 가설 검정의 기초를 이해하자. (0) | 2021.01.29 |
[통계분석] 01. 확률분포는 머신러닝에서 어떻게 사용될까? (1) | 2021.01.29 |
[통계분석] 08. 관측 데이터를 잘 설명할 수 있는 잠재 공간을 발견하는 법? - PCA (0) | 2020.12.09 |