[비정형 데이터] 01. 비정형 데이터 분석

2020. 4. 29. 02:10데이터 분석/비정형데이터분석

비정형 데이터란 텍스트, 음성, 이미지, 신호 등과 같이 정형화되지 않은 데이터로 정해진 모델이 없거나 미리 정의된 방식으로 정리되지 않은 데이터를 뜻합니다. 비정형 데이터 분석의 최종 목표는 정리되어 있지 않은 자료에서 tidy data로 만들어내는 것입니다.

 

그렇다면 tidy data란 무엇일까요?

 

tidy data는 data의 특성을 나타내는 속성값인 variable이 열, 관측치인 observation이 행으로 이루어져 있는 2차원 행렬 데이터로 각각의 cell은 하나의 값을 가지고 이는 value라고 부르는 데이터입니다. 

 

tidy data 형태

 

예를 들어 여러 문서들의 포함된 주요 keyword를 추출하는 분석을 할 때, 각각의 문서들인 관측치(observation)이 행으로 주요 키워드들이 변수화되어 문서의 특징을 나타내는 variable이 될 수 있습니다. 이렇게 만든 데이터를 tidy data라고 합니다. 

 

즉, 어떻게 tidy data로 만들어낼 것인가?의 관건은 특성을 어떻게 뽑아낼 것인가?라고 할 수 있습니다.

 

 

비정형 데이터 분석의 과정은 다음과 같습니다.

 

 

비정형 데이터 분석 과정

 

1. exporation: 데이터 탐색

 

2. feature engineering: data의 feature들을 뽑아내어 tidy data 형태로 만들어 요약 정보 추출

 

3. Modeling

 

   (1). Mathematical Modeling: 가정을 통해 타당성을 검정하고 타당하면 데이터에 모델을 적용하여 전체 데이터를 설          명할 수 있는 하나의 모델을 적용하는 것으로 이 방법은 오차없이 완벽하게 표현하는 것이 아닌 데이터에서 보            이는 주요 매커니즘을 이상화시켜 나타내는 방법.(가정을 기반으로 모델 적용)

 

   (2). Machine Learning: 데이터에서 공통 패턴을 도출하여 데이터에 특화된 모델 발견. 이때, 일반적인 가이드라인에           따라 모델을 발견해야함. (데이터의 공통 패턴을 통해 특화된 모델 발견)

 

 

비정형 데이터 분석에서 이미지나 영상은 주로 딥러닝을 이용하고 텍스트는 텍스트 마이닝을 이용하여 분석합니다.

 

그렇다면 신호는 어떨까요? 이번에 다룰 내용은 신호 데이터를 분석하는 내용입니다. 신호는 물리량의 변화 형태를 담은 일련의 자료 또는 정보의 집합으로 전압, 전류, ECG, EEG, 주식가격 등을 나타냅니다. 신호가 변화하는 양상 속에 정보가 담겨 있고 이 정보는 보다 합리적인 판단과 행동을 가능하도록 만들고 대상을 효율적으로 통제할 수 있게 하기 때문에 신호의 관측과 분석은 필요합니다.

 

신호 데이터 분석의 예시로는 발걸음 데이터로 파킨슨 병 감지, 스마트폰 가속도 센서 데이터로 사용자 활동 감지, 심전도 분석을 통해 부정맥 예측, PIR 센서 분석 등이 있습니다. 

 

신호 데이터는 센서 데이터 특질을 추출하는 방식으로 분석을 할 수 있고 해당 내용은 다음 포스팅에서 다루도록 하겠습니다.

 

해당 글은 순천향대학교 빅데이터공학과 우지영 교수님의 강의를 바탕으로 정리된 내용으로 모든 자료의 출처는 우지영 교수님의 수업자료에 있음을 알려드립니다.

728x90