[통계분석] 01. 확률분포는 머신러닝에서 어떻게 사용될까?

2021. 1. 29. 17:54데이터 분석/통계분석

데이터 분석을 할 때 첫번째 가정은 "분석할 데이터는 어떤 확률 변수로부터 실현된 표본이다"입니다. 즉, 데이터를 표본 자체만으로 보기보다 이 데이터를 만들어내는 확률 변수의 분포를 봐야한다는 것입니다. 더구나 데이터의 분포에 따라 다르게 전처리를 하고 알고리즘을 사용하기 때문에 머신러닝을 할 때도 중요합니다.

 

그렇다면 확률변수가 어떤 확률분포 따르는가는 어떻게 아는 걸까요? 

 

히스토그램을 그려서 확률 분포의 모양을 통해 데이터의 특성을 알아내면 됩니다.

 

히스토그램

히스토그램은 확률 분포의 모양을 보는 것 외에도 이상치가 존재하는지, 그룹 간의 평균의 차이가 있는 지 등을 통해 탐색적 데이터 분석하기에 좋은 시각화입니다. 히스토그램을 알기 위해서는 도수분포표 개념에 대해 알아야합니다. 도수분포표는 연속형 데이터를 구간을 설정하여 범주형 데이터로 변환하여 특정 구간에 속하는 데이터의 개수를 나타내는 표입니다.

 

도수분포표를 만드는 과정은 다음과 같습니다.

1. 데이터의 개수를 센다.

2. 데이터 내에서 최대/최소값을 찾는다.

3. 몇 개의 구간으로 나눌지 결정한다.

 - 이때 구간이 너무 많지 않는 것이 좋음.

4. 측정 구간에 속하는 개수, 즉 도수를 구한다.

5. 표로 나타낸다.

 

도수는 측정구간에 속하는 개수, 도수를 총 도수의 합으로 나눈 것을 상대도수라고 합니다. 도수 분포표를 시각화로 나타내 준 그림이 히스토그램입니다. 자료에 따라 히스토그램은 다양하게 분포됩니다. (x축: 구간, y축: 구간 별 빈도수) 히스토그램이 정규분포를 따르지 않는다면 정규분포를 따르도록 변환하여 회귀분석을 할 때 설명력을 높일 수도 있습니다. R에서 hist 함수로 히스토그램을 생성할 수 있고 계급값을 자동으로 만들어서 그래프를 그려줍니다. 

히스토그램의 다양한 분포 형태 [2]

 

확률 분포 

확률 분포에서 확률은 사건이 일어날 가능성을 말하고 이때 사용되는 변수인 확률 변수는 발생 가능한 모든 사건들의 집합인 표본 공간 안에서 특정한 확률을 가지고 발생하는 사건을 수치에 대응시키는 함수를 말합니다. 확률 분포는 이산형 확률 변수에 대한 분포인 이산형 확률 분포, 연속형 확률 변수에 대한 분포인 연속형 확률 분포 두가지로 나뉩니다. 이산형 확률 변수어떤 값을 가질 확률을 계산하는 함수이고 연속형 확률 변수어떤 구간 내에 포함될 확률을 계산하는 변수입니다. 

 

이산형 확률 변수와 연속형 확률 변수 

확률 분포의 종류는 다음과 같습니다. 화살표를 눈여겨 확인해보면 좀 더 쉽게 분포를 받아들일 수 있습니다. 

확룰 분포 함수 종류 [3]

 

이산형 확률 변수일 때 사용하는 확률 분포는 대표적으로 다음과 같습니다.

 

  • 베르누이 분포: 성공/실패와 같이 두 가지에 대한 분포로 성공확률 p, 실패확률 1-p가 있는 분포
  • 균일 분포: 모든 확률변수에 대해 균일한 확률을 갖는 분포
  • 이항 분포: 성공확률이 p인 베르누이 시행이 n번 반복되었을 때 성공횟수를 확률 변수로 하는 분포를 말합니다. 
  • 포아송 분포: 데이터가 불연속할 때 측정되는 이산형 변수에 대한 확률 분포로 일정 단위에서 평균 성공 수가 m 일 때 성공 횟수를 확률 변수로 하는 분포입니다.  특정 시간 내의 빈도수를 예측하는 경우에 사용될 수 있습니다. 
  • 기하분포
  • 초기하분포: 반복하지 않는 시도에서 사건이 발생할 확률 분포

 

연속형 확률 변수일 때 사용하는 확률 분포는 대표적으로 정규분포와 t-분포가 있습니다.

  • 정규분포: 가장 많이 사용하는 분포 개념은 실험의 측정 오차나 사회 현상 등 자연계의 현상은 정규분포를 따르는 경향이 있습니다. 
  • t-분포
  • 일양분포
  • 감마분포: 특정 수의 사건이 일어날 때까지 걸리는 시간에 관한 연속 확률 분포
  • 지수분포: 감마분포의 모양으로 매개변수 k=1일 때 사건이 일어나는 시간 간격의 확률 분포
  • 로그정규분포
  • 카이제곱분포: 집단을 몇 가지로 나눴을 때 크기가 작은 집단에 보편성이 있는 지 확인할 수 있는 분포로 통계적 추론에서 독립성 검정으로 이용되며 임상시험이나 사회과학 설문조사 등에 자주 사용되는 확률 분포
  • f분포
  • 베타분포: 2개의 변수를 갖는 특수 함수인 베타함수를 이용한 분포로 베이즈 통계학에서 사전 분포 모델로 이용할 때가 많은 확률 분포

 

일반적으로 모분산은 정확히 알 수 없지만 모분산에 따라 정규분포의 모양이 바뀌곤 합니다. 이런 경우 정규분포를 이용한 검정 방법이 신뢰성을 잃게 되기 때문에 정규분포와 형태는 비슷하지만 모분산 항을 포함하고 있지 않고 표본분산을 이용한 분산을 고안한 분포가 t-분포입니다. 즉. t-분포는 평균을 검정하기 위해 고안된 분포로 정규분포와 다르게 모분산을 포함하고 있지않습니다. t-분포는 아래 그림과 같이 정규분포와 비슷한 형태이며 자유도에 따라 종의 형태가 조금씩 변합니다. 통상적으로 데이터의 개수 n이 30개 이상되면 정규분포를 따른다고하고 30개 미만이면 t 분포를 따른다고 말합니다. 아래 사진과 같이 t-분포의 데이터가 30개 이상이되면 정규분포에 근접하게 된다는 관계입니다. 

 

정규분포와 t-분포 [1]

 

데이터의 특성에 따라 다음과 같은 규칙을 정의할 수 있습니다.

  • 데이터는 0 또는 1 뿐이다. -> 베르누이분포

  • 데이터는 카테고리 값이어야 한다. -> 카테고리분포

  • 데이터는 0과 1 사이의 실수 값이어야 한다. -> 베타분포

  • 데이터는 항상 0 또는 양수이어야 한다. -> 로그정규분포, 감마분포, F분포, 카이제곱분포, 지수분포, 하프코시분포 등

  • 데이터가 크기 제한이 없는 실수다. -> 정규분포 또는 스튜던트 t분포, 코시분포, 라플라스분포 등

하지만 예외가 있을 수 있습니다. 항상 양수인 데이터도 정규분포로 나타낼 수 있으면 정규분포로 나타낼 수 있습니다.

 

모든 확률 분포는 한 개 이상의 모수를 갖고 있으며 이 모수는 확률 분포의 모양을 결정합니다. 정규분포의 경우 평균, 분산 2개의 모수가 있고 이 모수들이 정규분포의 모양을 결정합니다. 

모수적 모델 vs 비모수적 모델 vs 세미모수적 모델

모수의 형태를 함수 형태로 분포를 가정하느냐의 유무에 따라 모델은 나뉩니다.

 

모수적 모델은 확률 분포를 기반으로 해당 모수를 추정하는 과정이 포함되어 있는 모델로 모수의 형태를 함수 형태의 분포로 가정하는 것을 말합니다. 모수적 모델의 예로는 선형 회귀 모델, 로지스틱 회귀 모델, Simple Neural Networks 가 있습니다. 선형 회귀의 경우 독립변수와 종속변수 사이의 관계를 직선으로 나타낸 것으로 독립변수를 이용하여 종속변수를 예측하거나 설명합니다. 실제로 두 변수 사이의 랜덤성으로 인해 독립변수만을 가지고 종속변수를 100% 설명할 수 없기 때문에 오차가 발생합니다. 이 오차값들이 평균이 0이고 분산이 특정값을 갖는 정규분포를 따른다는 가정하에 모델이 데이터를 설명하기에 적합하다고 판단합니다. 이처럼 선형회귀모델은 모델 구축시 정규분포를 가정하기 때문에 모수적 방법론 중 하나인 것입니다. 모수적 모델은 간단하고 빠르며 적은 데이터에도 잘 동작하지만 제한적이고 복잡성에 한계가 있습니다.

 

 

비모수적 모델모수의 형태를 함수 형태의 분포로 가정하지 않는 모델로 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 검정하는 모델을 말합니다. 비모수적 모델의 예로는 KNN, 랜덤포레스트, 의사결정나무 등이 있습니다. KNN의 경우 하이퍼모수인 K개의 관측치를 결정한 후 이들의 특성을 이용해 관심 관측치를 예측하는 알고리즘입니다. 이때 확률분포는 사용되지 않기 때문에 비모수적 모델입니다. 비모수적 모델의 장점은 유연하고 강력하지만 많은 데이터를 필요로하고 느리며 오버피팅이 발생할 수 있습니다.

 

세미모수적 모델모수적 모델과 비모수적 모델을 상충시켜서 만든 모델일부에서는 모수가 존재하지만 확률 분포를 가정하지 않는 모델을 말합니다. 연결선의 가중치인 모수는 존재하지만 이 모수는 확률 분포와 무관하게 얻어지는 것입니다. 세미모수적 모델의 예로는 SVM, 인공신경망 등이 있습니다. 인공신경망 모델은 기본적으로 input layer, hidden layer, output layer 3개의 층으로 구성되어 있으며 서로 연결된 형태입니다. 이때 층 간 노드들을 연결하는 선의 weight를 모수라고하고 은닉층의 개수, 은닉층에 포함될 노드의 개수 등은 하이퍼모수이기 때문에 모수는 있지만 확률 분포를 가정하지 않는 모델인 것입니다. 

 

 

참고

[1] blog.naver.com/gracestock_1/120201816950

[2] drhongdatanote.tistory.com/24

[3] destrudo.tistory.com/16

728x90