데이터 분석(18)
-
[비정형 데이터] 06. 어떤 특징을 추출할 수 있을까? - 주파수
주파수 신호 특징 시간에 따라 변하는 신호들은 더 기본적인 신호들로 쪼갤 수 있습니다. 이때 여러 주파수를 가진 신호들로 나타낼 수 있는데 이를 신호의 (주파수) 스펙트럼이라고 합니다. 이 분석은 시간축에 표현했을 때 보이지 않았던 특성들이 주파수 관점에서 보았을 때 파악할 수 있고 다른 신호와 비교 분석 시 유용합니다. 주기 신호는 같은 주기를 갖는 정현파(기본파)와 이 정현파의 정수배 주파수를 갖는 정현파(고주파)들의 합으로 표현할 수 있습니다. 이때, 기본파는 신호의 표현을 바꾸는데 바탕 역할을 하는 신호를 뜻하고 고조파는 기본파가 가지는 주파수의 몇 배에 해당하는 주파수를 가지는 신호를 말합니다. 그렇다면 정현파는 무엇일까요? 정현파는 등속 회전 운동체의 위치를 시간에 대해 그린 파형을 갖는 신호..
2020.05.04 -
[비정형 데이터] 05. 어떤 특징을 추출할 수 있을까?Peak
저번 포스팅에 이어 신호처리를 위한 특질을 추출하내는 것입니다. 이번 포스팅은 peak특질을 추출하는 것입니다. peak는 아래 그림과 같이 신호 데이터에서 위로 볼록 올라온 부분으로 peak 간 발생 간격, peak의 크기 등을 특질화하여 변수로 사용할 수 있습니다. peak는 pracma 패키지를 이용하여 구할 수 있습니다. pracma 패키지는 수치 분석 및 선형 대수, 수치 최적화, 미분 방정식, 시계열 등과 관련된 함수를 제공해주는 패키지로 기존 matlab기능이 R로 구현되어 있습니다. 신호 데이터를 만들어 peak를 찾아보겠습니다. library(pracma) x = seq(0, 1, len = 1024) pos = c(0.1, 0.13, 0.15, 0.23, 0.25, 0.40, 0.44,..
2020.04.30 -
[비정형 데이터] 04. 어떤 특징을 추출할 수 있을까? - 급격하게 변하는 시점
시간에 따라 변하는 신호의 패턴이 갑자기 변하는 구간. 즉, 급격한 변화를 탐지하는 방법입니다. 시계열 데이터는 어떤 변화를 감지할 것인가? 관점에서 평균 또는 분산, 평균과 분산이 변하는 구간을 찾아내어 변화하는 위치를 하나의 특성값으로 간주하여 tidy data 형태로 만들 수 있습니다. 이렇게 변하는 구간은 changepoint 패키지를 이용하여 찾아냅니다. 난수를 생성하여 신호데이터를 만들어 급격하게 변하는 곳을 찾아보도록 하겠습니다. library(changepoint) 평균의 변화량이 발생하는 시점 cpt.mean(data): 평균의 변화량이 발생하는 시점에 관한 내용이 객체로 반환 cpts(cpt.mean(data)): 평균의 변화량이 발생하는 시점을 벡터로 반환 # 다음번에도 같은 난수가 ..
2020.04.29 -
[비정형 데이터] 02. Tidyverse 패키지 다루기
Tidyverse 패키지 여러 패키지를 공통된 규칙 안에서 사용할 수 있게 모아놓은 패키지 Tidyverse패키지 이용과정 data import -> tidy -> transform &visaulise & model (explore) -> communication data가 import되고 각 관측치가 하나의 행에 기록되고 각 변수에 의해 특성화되도록 tidy data형태로 변환 후 시각화와 요약, 모델링을 통해 탐색한 후 의사결정에 활용 tidy data 형태로 변환 같은 속성의 변수들이 여러 개이면 분석을 하는데 시간이 오래걸리고 자동화시키기 복잡하기 때문에 같은 의미의 변수는 하나로 합쳐지는 것이 좋음. 회사 내 DB에서 컬럼을 추가하기 위해서는 테이블 설계를 다시해야하고 데이터 정의서 및 관련 문..
2020.04.29 -
[비정형 데이터] 03. 어떤 특징을 추출할 수 있을까? - 통계적 특징
비정형 데이터의 신호를 분석할 때는 통계적 특징(특질)을 이용하여 변수로 사용하라 수 있습니다. 신호를 처리할 때는 통계 특질, 피크 특질, 주파수 특질 등을 통해 특질을 추출하여 tidy data형태로 만들 수 있는데 이번 포스팅에서는 통계적 특질을 다뤄보고자 합니다. 기술통계량은 수집된 자료의 대표값이나 변동의 크기 등을 요약하여 특정한 수치로 나타낸 것으로 중심화 경향, 퍼짐 정도, 분포형태와 대칭정도로 나눌 수 있습니다. 중심화 경향은 관찰된 자료가 어느 위치에 집중되어 있는가를 나타내는 것으로 산술평균, 중앙값, 최빈값, 기하평균, 조화평균, 가중평균이 있습니다. x=c(1,2,3,3,4,5,6) # 산술평균 mean(x) # 중앙값 median(x) # 최빈값 which.max(table(x)..
2020.04.29 -
[비정형 데이터] 01. 비정형 데이터 분석
비정형 데이터란 텍스트, 음성, 이미지, 신호 등과 같이 정형화되지 않은 데이터로 정해진 모델이 없거나 미리 정의된 방식으로 정리되지 않은 데이터를 뜻합니다. 비정형 데이터 분석의 최종 목표는 정리되어 있지 않은 자료에서 tidy data로 만들어내는 것입니다. 그렇다면 tidy data란 무엇일까요? tidy data는 data의 특성을 나타내는 속성값인 variable이 열, 관측치인 observation이 행으로 이루어져 있는 2차원 행렬 데이터로 각각의 cell은 하나의 값을 가지고 이는 value라고 부르는 데이터입니다. 예를 들어 여러 문서들의 포함된 주요 keyword를 추출하는 분석을 할 때, 각각의 문서들인 관측치(observation)이 행으로 주요 키워드들이 변수화되어 문서의 특징을 ..
2020.04.29