전체 글(63)
-
[프로젝트] 이탈할 고객을 예측하여 수익 감소 방지하기
최근 EDA 역량의 부족함을 느끼고 Kaggle EDA 필사를 하고 있습니다. 타이타닉 EDA 필사를 하며 공부한 내용과 핸즈온 Chapter2를 공부한 후 참고하여 고객 이탈 예측 프로젝트를 진행했습니다. (Kaggle의 데이터 이용) 순서 1. 문제를 정의하고 큰 그림 보기 2. 데이터 가져오기 3. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화 4. 머신러닝 알고리즘을 위한 데이터 준비 5. 모델 선택과 훈련 6. 모델 튜닝 7. 솔루션 제시 8. 론칭, 모니터링, 시스템 유지 보수 💻 사용한 언어: Python 1. 문제를 정의하고 큰 그림 보기 모델을 학습시켜 새로운 데이터가 주어졌을 때 이탈할 고객을 예측하는 것이 목표입니다. 이탈할 것이라고 분류된 고객들의 주요 특성을 파악하고 미래 이탈 방..
2021.01.30 -
[통계분석] 04. 연속형 변수, 어떻게 가설 검정을 할까?
연속형 변수를 가설 검정하는 경우의 예시를 들어보겠습니다. 본론에 들어가기 전 가설 검정에 대한 용어들을 익히기 위해 해당 글을 읽고 오시면 이해하는데 도움이 될 것입니다. 어떤 변수의 평균이 특정값과 차이가 있을 것이다, 어떤 변수가 성별에 따른 차이가 있을 것이다, 혈압약을 먹었을 때와 안먹을 때 두 혈압의 차이가 있을 것이다. 상, 중, 하 점수를 가진 세 개의 그룹 간에 따른 차이가 있을 것이다. 하나, 두 그룹 또는 그 이상의 그룹에 대해 차이가 있는지 검정할 때 사용합니다. 각 예시에 맞춰 검정하는 방법은 다음과 같습니다. 어떤 변수의 평균이 특정값과 차이가 있을 것이다 -> 단일 표본 t-검정(1 sample t-test) 어떤 변수가 성별에 따른 차이가 있을 것이다 -> 독립 표본 t-검정..
2021.01.29 -
[통계분석] 03. 가설 검정의 기초를 이해하자.
이번 글은 가설 검정에 대해 내용을 다뤄보겠습니다. 가설 검정은 통계적으로 검증의 대상이 되는 가설을 검정하는 것을 말합니다. 귀무가설, 대립가설 통계적으로 가설을 세울 때 귀무가설(H0), 대립가설(H1) 두가지 가설을 설정합니다. 귀무가설은 "모수가 특정한 값이다" 또는 "두 모수의 값은 값다" 등과 같이 판단이 옮다는 가정 하에 설정하는 가설이고 대립가설은 귀무가설을 반박하는 가설로 "모수가 특정한 값이 아니다" 또는 " 두 모수의 값은 다르다" 와 같은 가설입니다. 검정통계량 검정통계량은 통계적 가설의 진위 여부를 검정하기 위해 표본으로부터 계산하는 통계량을 말합니다. 검정통계량의 값이 어떤 기준을 벗어나는지 확인하여 가설의 진위여부를 결정합니다. 검정통계량을 구하기 위해서는 먼저 데이터의 분포를..
2021.01.29 -
[통계분석] 02.모수를 왜 추정하고, 어떻게 추정하는거지?
모수를 추정하는 이유 통계의 기본 전제는 분석하고자 하는 대상 전체(모집단)를 분석하기에는 많은 시간과 비용이 들기 때문에 모집단의 일부인 표본을 통해 모집단의 특성을 파악합니다. 하지만 표본을 통해 추정하는 것은 100% 일치한다라고 할 수 없습니다. 일부에 대한 특성을 파악하고 모집단과 얼마나 일치하는지를 확인하는 것이기 때문에 추정한 값과 실제값의 차이인 오차가 존재할 수 밖에 없습니다. 즉 정리하면 우리는 모집단의 일부인 표본의 통계량을 통해 모수를 추정합니다. 모수를 추측해보는 과정을 통계학에서는 추정이라고 말합니다. 그리고 추출된 표본으로부터 모집단의 일반적인 특성을 추론해내는 것을 통계적 추론이라고 합니다. 통계적 추론을 할 때는 추론 결과를 100% 확신할 수 없으므로 본질적으로 불확실성으..
2021.01.29 -
[통계분석] 01. 확률분포는 머신러닝에서 어떻게 사용될까?
데이터 분석을 할 때 첫번째 가정은 "분석할 데이터는 어떤 확률 변수로부터 실현된 표본이다"입니다. 즉, 데이터를 표본 자체만으로 보기보다 이 데이터를 만들어내는 확률 변수의 분포를 봐야한다는 것입니다. 더구나 데이터의 분포에 따라 다르게 전처리를 하고 알고리즘을 사용하기 때문에 머신러닝을 할 때도 중요합니다. 그렇다면 확률변수가 어떤 확률분포 따르는가는 어떻게 아는 걸까요? 히스토그램을 그려서 확률 분포의 모양을 통해 데이터의 특성을 알아내면 됩니다. 히스토그램 히스토그램은 확률 분포의 모양을 보는 것 외에도 이상치가 존재하는지, 그룹 간의 평균의 차이가 있는 지 등을 통해 탐색적 데이터 분석하기에 좋은 시각화입니다. 히스토그램을 알기 위해서는 도수분포표 개념에 대해 알아야합니다. 도수분포표는 연속형 ..
2021.01.29 -
코멘토 SQL 입문부터 활용까지 후기
2020.11.29 ~ 2020.12.27 SQL을 다뤄본 경험이 부족하기 때문에 SQL을 이용하여 데이터를 분석하고 시각화, 보고서를 작성하는 과정이 궁금했다. 특히, SQL을 활용해 지표를 추출하고 이를 보고서나 대시보드 형태로 관리한다고 하는데 어떤 지표를 추출하는 것이 맞는지 막연했었다. 그래서 직무부트캠프를 통해 SQL, 지표관리, 시각화, 보고서 작성, 대시보드 만드는 방법을 익히고자 신청했다. 캠프 과정은 다음과 같았다. (상세 스케줄) 1주차: 직무 강의 + SQL 기본 문법 익히기 2주차: SQL을 활용해 다양한 지표 추출하기 3주차: 데이터 분석 보고서 작성하기 4주차: 인사이트가 한눈에 들어오는 대시보드 만들기 5주차: 과제 발표 및 피드백 이 중 가장 기대했고 어려웠던 과정은 다양한..
2021.01.12