[시계열 분석] 01. 시계열 데이터 어떻게 예측하는가?

2020. 10. 30. 09:33데이터 분석/시계열분석

이번 글은 시계열 데이터를 분석하는 방법에 대해 알아보겠습니다.

시계열 데이터?

시계열 데이터는 주식가격, 실업률, 기후 데이터처럼 관측치가 시간적 순서를 가진 데이터를 말합니다. 

 

시계열 변동요인

시계열 변동요인에는 4가지 요인들이 있습니다.

 

  • 추세요인: 장기간&점진적으로 상승하거나 하강
  • 순환요인: 수년간의 간격으로 주기적인 패턴 파악
  • 계절요인: 단기적이고 주기적인 패턴을 갖고 반복적인 경향
  • 불규칙요인: 명확히 설명할 수 없는 요인에 의한 우연변동

 

시계열 자료분석 순서

 

시계열 데이터를 분석할 때 순서는 다음과 같습니다.

 

  1.  시계열 데이터 구조 파악
  2.  시계열 데이터의 구조와 특성을 토대로 미래 값 예측
    • ARIMA 모형은 정상성 데이터로만 미래의 값 예측 가능
      • 정상성의 기준
        • 모든 시점에 대해 일정한 평균을 가짐.
        • 평균이 일정하지 않고 분산도 시점에 의존하지 않음.
        • 공분산도 단지 시차에만 의존할 뿐 실제 특정 시점 t, s에 의존하지 않음

   -> 목적: 시계열이 갖고 있는 법칙성을 발견하여 이를 모형화하고 추정된 모형을 통해 미래 예측 

 

시계열 데이터의 예측방법

시계열 자료를 예측하는 방법은 경험적 법칙을 추정하여 예측하는 양적예측방법과 주관적인 견해를 사용하여 예측하는 질적 예측 방법이 존재하는데 양적 예측방법은 과거의 패턴을 미래에서도 지속될 것이라는 가정을 갖고 사용됩니다.

 

양적예측방법의 분석방법은 전통적 시계열 분석방법과 확률적 시계열분석방법으로 나뉩니다. 전통적 시계열 분석방법은 평활법과 분해법, 확률적 시계열 분석방법에는 ARIMA 모형이 속합니다.

 

 

 

 

시계열 데이터 예측 평가 방법

  1. 데이터를 관측가능 기간과 예측기간으로 구분
    • 관측가능기간의 데이터를 사전평가, 예측기간의 데이터를 사후평가로 구분.
      • 미래의 데이터는 구할 수 없으므로 사후평가데이터로 가정하는 것
  2. 사전평가에서 모형을 구축하고 사후평가에서 추정된 모형으로 예측
    • 시계열 데이터는 시간을 갖고 있기 때문에 순서가 바뀌면 안되므로 샘플링을 하면 안됨.
  3. 모형을 평가하는 척도
    • MAE(평균절대오차)
    • MSE(평균제곱오차)
    • RMSE(평균제곱근오차)
    • MAPE(평균절대백분비오차) 등 

R로 실습하는 코드

 

728x90