전체 글(63)
-
[비정형 데이터] 02. Tidyverse 패키지 다루기
Tidyverse 패키지 여러 패키지를 공통된 규칙 안에서 사용할 수 있게 모아놓은 패키지 Tidyverse패키지 이용과정 data import -> tidy -> transform &visaulise & model (explore) -> communication data가 import되고 각 관측치가 하나의 행에 기록되고 각 변수에 의해 특성화되도록 tidy data형태로 변환 후 시각화와 요약, 모델링을 통해 탐색한 후 의사결정에 활용 tidy data 형태로 변환 같은 속성의 변수들이 여러 개이면 분석을 하는데 시간이 오래걸리고 자동화시키기 복잡하기 때문에 같은 의미의 변수는 하나로 합쳐지는 것이 좋음. 회사 내 DB에서 컬럼을 추가하기 위해서는 테이블 설계를 다시해야하고 데이터 정의서 및 관련 문..
2020.04.29 -
[비정형 데이터] 03. 어떤 특징을 추출할 수 있을까? - 통계적 특징
비정형 데이터의 신호를 분석할 때는 통계적 특징(특질)을 이용하여 변수로 사용하라 수 있습니다. 신호를 처리할 때는 통계 특질, 피크 특질, 주파수 특질 등을 통해 특질을 추출하여 tidy data형태로 만들 수 있는데 이번 포스팅에서는 통계적 특질을 다뤄보고자 합니다. 기술통계량은 수집된 자료의 대표값이나 변동의 크기 등을 요약하여 특정한 수치로 나타낸 것으로 중심화 경향, 퍼짐 정도, 분포형태와 대칭정도로 나눌 수 있습니다. 중심화 경향은 관찰된 자료가 어느 위치에 집중되어 있는가를 나타내는 것으로 산술평균, 중앙값, 최빈값, 기하평균, 조화평균, 가중평균이 있습니다. x=c(1,2,3,3,4,5,6) # 산술평균 mean(x) # 중앙값 median(x) # 최빈값 which.max(table(x)..
2020.04.29 -
[비정형 데이터] 01. 비정형 데이터 분석
비정형 데이터란 텍스트, 음성, 이미지, 신호 등과 같이 정형화되지 않은 데이터로 정해진 모델이 없거나 미리 정의된 방식으로 정리되지 않은 데이터를 뜻합니다. 비정형 데이터 분석의 최종 목표는 정리되어 있지 않은 자료에서 tidy data로 만들어내는 것입니다. 그렇다면 tidy data란 무엇일까요? tidy data는 data의 특성을 나타내는 속성값인 variable이 열, 관측치인 observation이 행으로 이루어져 있는 2차원 행렬 데이터로 각각의 cell은 하나의 값을 가지고 이는 value라고 부르는 데이터입니다. 예를 들어 여러 문서들의 포함된 주요 keyword를 추출하는 분석을 할 때, 각각의 문서들인 관측치(observation)이 행으로 주요 키워드들이 변수화되어 문서의 특징을 ..
2020.04.29 -
tar.Z 파일 linux에서 압축풀기
https://archive.ics.uci.edu/ml/datasets/Artificial+Characters UCI Machine Learning Repository: Artificial Characters Data Set Artificial Characters Data Set Download: Data Folder, Data Set Description Abstract: Dataset artificially generated by using first order theory which describes structure of ten capital letters of English alphabet Data Set Characteristics: Multivariate Nu archive.ics.uci.e..
2020.03.17 -
[Python] TypeError: Object of type int32 is not JSON serializable
from collections import defaultdict data = [] for i in range(len(medical_df)): group_data = defaultdict() bad_effect = defaultdict() bad_effect["alchol"] = medical_df['alchol'][i] bad_effect["combination_ban"] = medical_df['combinataion_ban'][i] bad_effect["dur_ban"] = medical_df['부작용'][i] bad_effect["bad_effect"] = medical_df['bad_effect'][i] group_data["item_code"] = medical_df['item_code'][i]..
2020.03.16 -
[Python] ValueError: 1 columns passed, passed data had 11 columns 오류
material_quantity = pd.DataFrame(alldf3,columns=['물질량']) 작성시 아래와 같은 에러가 난다면? ValueError: 1 columns passed, passed data had 11 columns alldf3가 이중리스트로 되어있기 때문에 딕셔너리 형태로 변환 후 데이터프레임을 만들면 해결이 된다. material_quantity = pd.DataFrame({'물질량':alldf3})
2020.03.02