데이터 분석(18)
-
[통계분석] 06. 회귀분석 그게 뭐야?
이번 글은 회귀분석에 관한 내용입니다. 순서 1. 선형함수와 선형회귀분석 2. 단순선형회귀분석과 다중선형회귀분석 1. 선형함수와 회귀분석 아래 그림과 같이 독립변수와 종속변수 간 관계를 파란 하나의 직선으로 나타낼 수 있습니다. 이 선은 데이터를 가장 잘 설명할 수 있는 선으로 함수로 표현하면 $Y = aX+b+오차항$ 입니다. 이처럼 데이터 집합 X에 대해 가장 잘 설명할 수 있는 선형 함수를 구할 수 있습니다. 이 함수는 독립변수 X가 한 단위 증가할 때 Y값은 변동량을 뜻합니다. Y, X가 주어져있을 때 a, b, 오차항을 추정하는 것입니다. a는 x가 1단위 변할 때 y가 얼만큼 변하는가를 나타내는 기울기, b는 y절편을 뜻합니다. 오차항의 오차는 모집단에서 얻은 회귀실을 통한 예측값과 실제값의 ..
2021.02.02 -
[통계분석] 05. 범주형 변수, 어떤 검정을 할 수 있을까?
이번 글은 범주형 변수에 대한 가설을 검정하는 독립성 검정과 적합성 검정, 동질성 검정에 대한 내용입니다. 글의 내용은 순천향대학교 김영민 교수님의 강의를 바탕으로 정리한 자료임을 먼저 말씀드립니다. 순서 1. 분할표와 카이제곱 2. 카이제곱 검정 1. 분할표 검정에 대해 알아보기 전 분할표에 대해 알아보겠습니다. 분할표는 아래 표와 같이 데이터를 분류하는 통계 기법 하나로 두 범주형 변수에 대한 교차 빈도수를 나타낸 표입니다. 두 변수의 범주들이 교차하는 칸마다 각 변수의 범주를 동시에 갖는 관측값들의 수를 그 칸의 도수로 기록한 것입니다. 도수분포표를 2차원으로 확장한 형태라고 생각하시면 됩니다. 이 표는 파트너가 존재하는 사람들에 따라 고객 이탈 유무에 차이가 있는지 확인하기 위한 분할표입니다. P..
2021.02.02 -
[통계분석] 04. 연속형 변수, 어떻게 가설 검정을 할까?
연속형 변수를 가설 검정하는 경우의 예시를 들어보겠습니다. 본론에 들어가기 전 가설 검정에 대한 용어들을 익히기 위해 해당 글을 읽고 오시면 이해하는데 도움이 될 것입니다. 어떤 변수의 평균이 특정값과 차이가 있을 것이다, 어떤 변수가 성별에 따른 차이가 있을 것이다, 혈압약을 먹었을 때와 안먹을 때 두 혈압의 차이가 있을 것이다. 상, 중, 하 점수를 가진 세 개의 그룹 간에 따른 차이가 있을 것이다. 하나, 두 그룹 또는 그 이상의 그룹에 대해 차이가 있는지 검정할 때 사용합니다. 각 예시에 맞춰 검정하는 방법은 다음과 같습니다. 어떤 변수의 평균이 특정값과 차이가 있을 것이다 -> 단일 표본 t-검정(1 sample t-test) 어떤 변수가 성별에 따른 차이가 있을 것이다 -> 독립 표본 t-검정..
2021.01.29 -
[통계분석] 03. 가설 검정의 기초를 이해하자.
이번 글은 가설 검정에 대해 내용을 다뤄보겠습니다. 가설 검정은 통계적으로 검증의 대상이 되는 가설을 검정하는 것을 말합니다. 귀무가설, 대립가설 통계적으로 가설을 세울 때 귀무가설(H0), 대립가설(H1) 두가지 가설을 설정합니다. 귀무가설은 "모수가 특정한 값이다" 또는 "두 모수의 값은 값다" 등과 같이 판단이 옮다는 가정 하에 설정하는 가설이고 대립가설은 귀무가설을 반박하는 가설로 "모수가 특정한 값이 아니다" 또는 " 두 모수의 값은 다르다" 와 같은 가설입니다. 검정통계량 검정통계량은 통계적 가설의 진위 여부를 검정하기 위해 표본으로부터 계산하는 통계량을 말합니다. 검정통계량의 값이 어떤 기준을 벗어나는지 확인하여 가설의 진위여부를 결정합니다. 검정통계량을 구하기 위해서는 먼저 데이터의 분포를..
2021.01.29 -
[통계분석] 02.모수를 왜 추정하고, 어떻게 추정하는거지?
모수를 추정하는 이유 통계의 기본 전제는 분석하고자 하는 대상 전체(모집단)를 분석하기에는 많은 시간과 비용이 들기 때문에 모집단의 일부인 표본을 통해 모집단의 특성을 파악합니다. 하지만 표본을 통해 추정하는 것은 100% 일치한다라고 할 수 없습니다. 일부에 대한 특성을 파악하고 모집단과 얼마나 일치하는지를 확인하는 것이기 때문에 추정한 값과 실제값의 차이인 오차가 존재할 수 밖에 없습니다. 즉 정리하면 우리는 모집단의 일부인 표본의 통계량을 통해 모수를 추정합니다. 모수를 추측해보는 과정을 통계학에서는 추정이라고 말합니다. 그리고 추출된 표본으로부터 모집단의 일반적인 특성을 추론해내는 것을 통계적 추론이라고 합니다. 통계적 추론을 할 때는 추론 결과를 100% 확신할 수 없으므로 본질적으로 불확실성으..
2021.01.29 -
[통계분석] 01. 확률분포는 머신러닝에서 어떻게 사용될까?
데이터 분석을 할 때 첫번째 가정은 "분석할 데이터는 어떤 확률 변수로부터 실현된 표본이다"입니다. 즉, 데이터를 표본 자체만으로 보기보다 이 데이터를 만들어내는 확률 변수의 분포를 봐야한다는 것입니다. 더구나 데이터의 분포에 따라 다르게 전처리를 하고 알고리즘을 사용하기 때문에 머신러닝을 할 때도 중요합니다. 그렇다면 확률변수가 어떤 확률분포 따르는가는 어떻게 아는 걸까요? 히스토그램을 그려서 확률 분포의 모양을 통해 데이터의 특성을 알아내면 됩니다. 히스토그램 히스토그램은 확률 분포의 모양을 보는 것 외에도 이상치가 존재하는지, 그룹 간의 평균의 차이가 있는 지 등을 통해 탐색적 데이터 분석하기에 좋은 시각화입니다. 히스토그램을 알기 위해서는 도수분포표 개념에 대해 알아야합니다. 도수분포표는 연속형 ..
2021.01.29