이 문서는 자연스럽지 않게 번역되었으며, 기계 번역을 통해 작성되었을 수도 있습니다. 자연스럽지 않은 문장을 한국어 어법에 맞게 고쳐 주세요.(2020년 4월)
통계 및 계량경제학, 특히 시계열분석에서 자동회귀누적이동평균(ARIMA : Autoregressive integrated moving average)모델은 자동회귀이동평균(ARMA : Autoregressive moving average) 모델의 일반화이다. 이 두 모델은 시계열 데이터를 더 잘 이해하거나 미래 지점을 예상(예측)하기에 적합하다. 자기 회귀 누적 이동 평균 모델은 데이터가 비정상성이 아닌 증거를 나타내는 경우에 적용되며, 초기 차분 단계(모델의 "통합된" 부분에 해당)를 한 번 이상 적용하여 비정상성을 제거할 수 있다.[1]
ARIMA의 AR 부분은 진화하는 관심 변수가 시차(즉, 이전) 값으로 회귀됨을 나타낸다. MA 부분은 회귀 오류가 실제로 과거 여러 시간에 동시에 발생한 오류 항의 선형 조합임을 나타낸다. "I"( "누적"의 경우)는 데이터 값이 해당 값과 이전 값의 차이로 바뀌 었음을 나타낸다. (이 차분 프로세스는 두 번 이상 수행되었을 수 있음.) 이러한 각 기능의 목적은 모델이 가능한 한 데이터에 적합하도록 만드는 것이다.
비계절성 ARIMA 모델은 일반적으로 ARIMA ( p, d, q )로 표시되며, 여기서 매개변수p, d 및 q는 음이 아닌 정수이고, p는 자기회귀 모델의 차수(시간 지연 수)이다. d는 차분 차수(데이터가 과거 값을 뺀 횟수)이며 q는 이동 평균 모델의 순서다. 계절성 ARIMA 모델은 일반적으로 ARIMA ( p, d, q ) ( P, D, Q ) m으로 표시되며, 여기서 m 은 각 계절의 기간을 나타내며 대문자 P, D, Q는 자기회귀, 차분, ARIMA 모델의 계절성에 대한 이동평균 항을 뜻한다.[2][3]
3개의 항 중 2개가 0인 경우 모델을 나타내는 약어에서 "AR", "I"또는 "MA"를 삭제하여 0이 아닌 매개 변수를 기준으로 모델을 나타낼 수 있다. 예를 들어 은 , 은 , 은 이다.
ARIMA 모델은 박스-젠킨스 접근 방식에 따라 추정할 수 있다.
정의
시계열 데이터 Xt(t는 정수 인덱스, Xt는 실수)가 주어졌을 때, 모델은 다음과 같다.
또는 동등하게
여기에서 은 럭셔리 연산자, 는 모델의 자기 회귀 부분의 파라미터, 는 이동 평균 부분의 파라미터, 는 오차항이다. 오차항는 일반적으로 평균 제로정규 분포에서 샘플링된 독립이 분포변수인 것으로 간주된다.
여기서 다항식
프로세스에서는p=p'-d 그래서 이용하여 다음과 같이 나타낸다.
그러므로 d 개개의 단위 뿌리를 가진 자기 회귀 다항식을 갖는다. 프로세스의 특수한 케이스라고 생각할 수 있다. 이 때문에 d > 0의 ARIMA 모델에서 정확히 기술되는 프로세스는 광의의 정상이 아니다. 상기는 다음과 같이 일반화할 수 있다.
이는 드리프트 를 따른 프로세스를 정의한다.
차분
통계학에서 차분은 정상화를 위해 시계열 데이터에 적용되는 변환이다. 정상 시계열 속성은 시계열이 관측되는 시간에 의존하지 않는다.
데이터를 차분하기 위해 연속 관측치의 차가 계산된다. 수학적으로 다음과 같이 표시된다
차분은 시계열 수준의 변화를 제거하여 추세와 계절성을 제거하고 결과적으로 시계열의 평균을 안정화시킨다.
때때로 정상화된 시계열을 얻기 위해 데이터를 두 번째로 차분해야할 수도 있다. 이를 2차 차분이라고 한다.
데이터를 차분하는 또 다른 방법은 계절성 차분으로, 이전 계절의 관측치와 해당 관측치 간의 차이(예 : 1년)를 계산한다. 다음과 같이 표시된다.