pca(2)
-
[ML] NMF(Non-negative Matrix Factorizaion), 비음수 행렬 분해
이번 글은 유사도 검정을 통해 알게 된 NMF(Non-negative Matrix Factorization) 기법에 대해 알아보겠습니다. NMF은 유사도 검정 전 텍스트 데이터에서 특성을 추출하는 것 외에도 차원 축소, 토픽 모델링 등에 사용됩니다. NMF는 하나의 객체정보를 음수를 포함하지 않은 두 개의 부분 정보로 인수분해하는 방법입니다. 즉, 음수를 포함하지 않은 행렬 m x n 행렬 R을 음수를 포함하지 않은 행렬 W, H의 곱으로 분해하여 의미 있는 특징을 추출하는 기법입니다. (위키백과) NMF의 목적은 공통 특성만을 가지고 정보를 줄이는 것입니다.이를 수식과 뉴스 기사에서 단어를 기반으로 특성을 추출하는 예시로 표현하면 아래와 같습니다. 행렬 R은 데이터셋으로 행은 샘플, 열은 feature..
2021.04.17 -
[통계분석] 08. 관측 데이터를 잘 설명할 수 있는 잠재 공간을 발견하는 법? - PCA
이번 글은 주성분 분석(Principal Component Analysis)에 대한 설명입니다. 주성분 분석은 차원을 축소하는 기법 중 하나로 잠재 공간을 만들어내거나 다중공선성이 발견했을 때 해결할 수도 있고, 데이터 압축, 노이즈 제거, 영상 인식 등 다양하게 사용됩니다. 순서 1. 차원 축소? 2. 주성분 분석 3. 주성분 분석 실습 1. 차원 축소 관측 데이터를 잘 설명할 수 있는 잠재 공간은 어떻게 발견할 수 있을까요? 데이터의 모든 Feature(독립 변수)들이 종속 변수를 잘 설명할 수 있을까요? "차원의 저주" 라는 말 들어보셨나요? 차원의 저주는 차원이 늘어날수록 설명력이 낮아진다는 것으로 독립 변수들이 많으면 모델링에 필요한 학습 집합의 크기가 커지고 노이즈의 특징들까지 포함되어 모델을..
2020.12.09