전체 글(63)
-
[Kaggle 필사] DieTanic 데이터로 EDA 필사하기!!
지난 2020년 10월 한국정보화진흥원에서 개최한 2020 데이터 크리에이터 캠프에 참가하면서 EDA의 중요성을 느꼈다. 모델링 예측도 중요하지만 데이터 탐색에 대한 질문을 많이 해주시면서 중요성을 언급해주셨다. 우리 팀을 담당한 멘토님께 EDA 실력을 키우기 위한 자문을 구했을 때 Kaggle에 EDA를 주로 파서 꼼꼼하게 작성해놓은 글들이 많다. 참고하고 연습해서 키우는 것 밖에 없다.라는 답변을 얻고 Kaggle에서 EDA를 필사하고 분석 프로젝트에 적용해보기 위한 스터디를 만들었다. EDA는 데이터 특성마다 방법이 다르기 때문에 분류, 회귀, 군집화, 이미지 처리 순으로 한 달씩 기간을 잡아 프로젝트를 진행한다. 지난 1월은 분류를 위한 EDA를 필사하고 고객 이탈 분석 프로젝트를 진행했고 Die..
2021.02.02 -
전치사 쉽게 보자 :-o
이번 글은 전치사에 대해 어려움을 느끼는 사람들에게 공유하고 싶은 책이 있어서 작성한다. 최근 영어 공부를 하며 정말 어렵다고 생각한 것이 전치사였다. 영어로 말할 때 문장에서 적절한 전치사가 어떤 것인지 떠올리기가 쉽지 않았고 해석할 때 여러 의미로 해석되기 때문에 매끄러운 문장으로 해석하기 어려웠다. 아마 of는 ~의, for은 ~위해 이런식으로 너무 좁게 생각하고 있었기 때문인 것 같다. 영어 통화를 하며 시제와 전치사 사용에 대해 익숙해지는 것이 좋을 것 같다는 피드백을 듣고 가볍게 접한 책은 "전치사 덕분에 영어공부가 쉬워졌습니다." 이다. 이 책은 학습 도서처럼 공부다!!! ! 라는 느낌보다 오~ 재밌다. 라는 느낌으로 읽게 되는 소설같은 느낌이다. 전치사의 핵심적인 의미를 아래와 같은 캐릭터..
2021.02.02 -
[ML] 군집화란 무엇인가, 어떻게 작동하는지 알아보자.
이번 글은 순천향대학교 정영섭 교수님의 강의와 핸즈온 머신러닝 2판을 공부한 후 정리한 내용입니다. 비지도 학습에 속하는 군집화에 대해 알아보겠습니다. 순서 1. 비지도 학습 2. 군집화 3. K-means 3.1. 작동 과정 3.2. 최적의 클러스터 개수를 선택하는 방법 4. 계층적 군집화(Hierarchical Clustering) 5. DBSCAN 1. 비지도 학습 비지도 학습은 label이 없는 데이터를 이용하는 알고리즘입니다. 데이터 시각화, 데이터 압축, 데이터 소거에 이용할 수 있고 입력 데이터로만 흥미로운 변환을 찾거나 데이터의 상관관계를 더 잘 이해합니다. 지도 학습 문제를 해결하기 전에 데이터셋을 이해하는데 도움을 받을 수도 있습니다. 대표적인 예로 군집화, 이상치 탐지, 밀도 추정에 ..
2021.02.01 -
목적있는 삶을 살고 계신가요?
최근 지인이 선물 받은 책을 회고하는 글을 읽었다. 선물해 준 사람에게 감사를 표현하는 멋진 방법 중 하나라는 생각이 들었고 나 또한 선물 받은 지 오래된 책이지만 감사함을 표현하고 싶어 책의 내용을 공유하고 생각을 정리하는 글을 작성한다. (내용도 유익하다!) 작년 여름, 우연히 접한 "나는 인생에서 중요한 것만 남기기로 했다."의 카드 리뷰가 내 얘기같아 흥미를 돋운 책이 있었다. 센스 있는 지인 분이 이 책을 선물해주셨다. 집에 돌아온 후 난장판이 된 거실, 제대로 하는 일은 하나도 없는 것 같은 삶 이런 기분이 나를 해롭게 만든다는 생각이 들었었다. 아마 이와 같은 기분을 느끼는 사람이 많을 것이다. 나름 계획적으로 살아야지 하고 계획을 하고 살았지만 욕심이 너무 많아 효율적으로 삶을 살아가지 못..
2021.01.31 -
[ML] 직관적인 모델 의사결정나무와 강한 학습기 앙상블
이번 글은 순천향대학교 정영섭 교수님의 강의와 우지영 교수님의 강의, 도서 핸즈온 머신러닝 2판을 참고했음을 먼저 밝힙니다. 순서 1. 의사결정나무 1.1. ID3 알고리즘 1.2. CART 알고리즘 2. 앙상블 2.1. Voting 2.2. Bagging 2.3. Boosting 2.4. Stacking 1. 의사결정나무 의사결정나무(DecisionTree)는 결정 트리라고도 불리는 머신러닝 알고리즘입니다. 결정할 수 있는 기준을 학습하는 알고리즘으로 패턴을 예측 가능한 규칙들의 조합으로 나타내고 이 모양이 tree와 같은 알고리즘입니다. 의사결정나무의 구성은 조건문(internal node), 조건 결과에 따른 분기(Edge), 결과(Extenal node 또는 Terminal node), 깊이가 0..
2021.01.31 -
[프로젝트] 국민 청원 게시판의 분산되는 동의 수, 이제 그만-
데이터 아키텍처 수업을 들으면서 한 프로젝트입니다. 데이터 수집, 전처리, 모델링, 웹에 표현하는 과정을 담은 프로젝트를 진행하였습니다. 순서 1. 문제 정의 2. 데이터 수집 및 저장 3. 데이터 전처리 4. 데이터 모델링 5. 데이터 적재 6. PHP를 이용하여 웹에 표현하기 1. 문제 정의 대부분 국민 청원 게시판을 이용해보셨을 것입니다. 국민 청원 게시판은 언론의 자유를 존중하며 자유롭게 글을 게시할 수 있지만 아래의 청원 게시글 모음처럼 동일한 내용의 게시글이 중복되어 게시되어 있기 때문에 청원 동의 수가 분산되는 문제점이 존재합니다. 이러한 문제점으로 인해 사람들은 어느 청원에 동의를 하는 것이 좋은 걸까? 어는 청원에 동의해야 답변을 받을 수 있는 걸까? 하는 고민들이 발생합니다. 20만 명..
2021.01.30