개인/프로젝트(5)
-
Youtube 인기 급상승 동영상 Analysis (1)
이번 글은 Youtube 인기 급상승 동영상을 분석하기 위해 인기 급상승 동영상 데이터를 수집할 것입니다. 순서 1. 분석 배경 2. 데이터 수집 3. selenium 알아보기 3.1. 웹요소 접근 메소드 3.2. 액션 체인 3.3. BeautifulSoup과 Selenium 3.4. 자바스크립트로 동작시키는 방법 3.5. Headless 모드 1. 분석 배경 유튜브 인기 급상승 동영상은 다양한 시청자의 관심을 끄는 영상으로 크리에이터의 다양성을 보여주는 영상, 흥미와 새로움을 느낄 만한 영상이 업로드됩니다. 조회수, 동영상 조회수 증가 속도, Youtube 외부를 포함하여 조회수가 발생하는 소스, 동영상 업로드 기간, 해당 동영상을 같은 채널에 최근 업로드한 다른 동영상과 비교한 결과를 고려하여 약 1..
2021.03.22 -
[Kaggle 필사] DieTanic 데이터로 EDA 필사하기!!
지난 2020년 10월 한국정보화진흥원에서 개최한 2020 데이터 크리에이터 캠프에 참가하면서 EDA의 중요성을 느꼈다. 모델링 예측도 중요하지만 데이터 탐색에 대한 질문을 많이 해주시면서 중요성을 언급해주셨다. 우리 팀을 담당한 멘토님께 EDA 실력을 키우기 위한 자문을 구했을 때 Kaggle에 EDA를 주로 파서 꼼꼼하게 작성해놓은 글들이 많다. 참고하고 연습해서 키우는 것 밖에 없다.라는 답변을 얻고 Kaggle에서 EDA를 필사하고 분석 프로젝트에 적용해보기 위한 스터디를 만들었다. EDA는 데이터 특성마다 방법이 다르기 때문에 분류, 회귀, 군집화, 이미지 처리 순으로 한 달씩 기간을 잡아 프로젝트를 진행한다. 지난 1월은 분류를 위한 EDA를 필사하고 고객 이탈 분석 프로젝트를 진행했고 Die..
2021.02.02 -
[프로젝트] 국민 청원 게시판의 분산되는 동의 수, 이제 그만-
데이터 아키텍처 수업을 들으면서 한 프로젝트입니다. 데이터 수집, 전처리, 모델링, 웹에 표현하는 과정을 담은 프로젝트를 진행하였습니다. 순서 1. 문제 정의 2. 데이터 수집 및 저장 3. 데이터 전처리 4. 데이터 모델링 5. 데이터 적재 6. PHP를 이용하여 웹에 표현하기 1. 문제 정의 대부분 국민 청원 게시판을 이용해보셨을 것입니다. 국민 청원 게시판은 언론의 자유를 존중하며 자유롭게 글을 게시할 수 있지만 아래의 청원 게시글 모음처럼 동일한 내용의 게시글이 중복되어 게시되어 있기 때문에 청원 동의 수가 분산되는 문제점이 존재합니다. 이러한 문제점으로 인해 사람들은 어느 청원에 동의를 하는 것이 좋은 걸까? 어는 청원에 동의해야 답변을 받을 수 있는 걸까? 하는 고민들이 발생합니다. 20만 명..
2021.01.30 -
[프로젝트] 이탈할 고객을 예측하여 수익 감소 방지하기
최근 EDA 역량의 부족함을 느끼고 Kaggle EDA 필사를 하고 있습니다. 타이타닉 EDA 필사를 하며 공부한 내용과 핸즈온 Chapter2를 공부한 후 참고하여 고객 이탈 예측 프로젝트를 진행했습니다. (Kaggle의 데이터 이용) 순서 1. 문제를 정의하고 큰 그림 보기 2. 데이터 가져오기 3. 데이터로부터 통찰을 얻기 위해 탐색하고 시각화 4. 머신러닝 알고리즘을 위한 데이터 준비 5. 모델 선택과 훈련 6. 모델 튜닝 7. 솔루션 제시 8. 론칭, 모니터링, 시스템 유지 보수 💻 사용한 언어: Python 1. 문제를 정의하고 큰 그림 보기 모델을 학습시켜 새로운 데이터가 주어졌을 때 이탈할 고객을 예측하는 것이 목표입니다. 이탈할 것이라고 분류된 고객들의 주요 특성을 파악하고 미래 이탈 방..
2021.01.30 -
코멘토 SQL 입문부터 활용까지 후기
2020.11.29 ~ 2020.12.27 SQL을 다뤄본 경험이 부족하기 때문에 SQL을 이용하여 데이터를 분석하고 시각화, 보고서를 작성하는 과정이 궁금했다. 특히, SQL을 활용해 지표를 추출하고 이를 보고서나 대시보드 형태로 관리한다고 하는데 어떤 지표를 추출하는 것이 맞는지 막연했었다. 그래서 직무부트캠프를 통해 SQL, 지표관리, 시각화, 보고서 작성, 대시보드 만드는 방법을 익히고자 신청했다. 캠프 과정은 다음과 같았다. (상세 스케줄) 1주차: 직무 강의 + SQL 기본 문법 익히기 2주차: SQL을 활용해 다양한 지표 추출하기 3주차: 데이터 분석 보고서 작성하기 4주차: 인사이트가 한눈에 들어오는 대시보드 만들기 5주차: 과제 발표 및 피드백 이 중 가장 기대했고 어려웠던 과정은 다양한..
2021.01.12