7.3 Modelli ARIMA: definizione

In questa sezione generalizziamo gli esempi visti sopra introducendo una famiglia generale di processi, detti ARIMA, che è una abbreviazione per l’espressione inglese AutoRegressive Integrated Moving Average (in italiano, autoregressivi integrati a media mobile). Come vedremo sono piuttosto semplici da parametrizzare ma risultano flessibili e utili per l’inferenza sui processi (in particolare la previsione dei valori futuri a partire dall’osservazione di una serie storica).

Per arrivare alla definizione generale conviene studiare separatamente i tre “ingredienti” principali che vanno a comporre un processo ARIMA, e precisamente la componente autoregressiva (AR), quella a media mobile (MA) e il procedimento di integrazione (I) a tempi discreti.

In tutta questa sezione supporremo che $\mathcal{T} = \cur{0,1, \ldots, n}$ oppure $\mathcal{T} = \N$ o anche $\mathcal{T} = \mathbb{Z}$, e che $(W_t)_{t \in \mathcal{T}}$ sia un rumore bianco gaussiano di intensità $\sigma^2$.

Introduciamo anche l’operatore di ritardo (lag) $L$ che trasforma un processo $(X_t)_{t \in \mathcal{T}}$ in $(LX)_t = X_{t-1}$ (pensato come processo sui tempi $t \ge 1$ se $\mathcal{T} = \cur{0,1, \ldots, n}$ oppure $\mathbb{N}$). Spesso, per alleggerire la notazione, scriviamo semplicemente $LX_t$ invece di $(LX)_t$.

L’operatore $L$ è lineare: \[ L(X+Y)_t = X_{t-1}+Y_{t-1} = LX_t + LY_t, \quad L(c X)_t = c LX_t.\] inoltre componendo $L$ con se stesso si ottengono ritardi di ordine superiore: $L^2X_t = LLX_t = X_{t-2}$, $L^3X_t = X_{t-3}$, ecc. Il vantaggio di questa notazione è che espressioni del tipo \[ a_0 X_t + a_1 X_{t-1}+ \ldots +a_k X_{t-k} = a_0 X_t + a_1LX_t +a_2 L^2 X_t + \ldots a_k L^k X_t\] si possono pensare come all’azione di un polinomio (formale) nella variabile $L$, precisamente \[p(L) X_t = (a_0 + a_1L +a_2 L^2 + \ldots a_k L^k ) X_t.\] Vedremo infatti che i modelli ARIMA si descrivono agevolmente usando polinomi di questo tipo.

7.3.1 Modelli AR

I modelli autoregressivi generalizzano il caso dell’equazione lineare con smorzamento della sezione precedente. L’osservazione di base è che l’equazione \[ X_t = \alpha X_{t-1} + W_t\] può essere pensata in termini di regressione lineare semplice, cui la variabile del processo $X_t$ è stimata a partire dallo stesso processo, ma con ritardo, ossia $X_{t-1}$ (da cui il termine autoregressivo). L’idea è quindi di estendere al caso di una regressione lineare multipla, su $p \ge 1$ istanti precedenti.

Definizione 7.2 Dato $p \ge 0$, un processo $(X_t)_{t \in \mathcal{T}}$ è detto $\operatorname{AR}(p)$ (autoregressivo di ordine $p$) se esistono parametri $\alpha_1, \alpha_2, \ldots, \alpha_p \in \R$ tali che, per ogni $t \in \mathcal{T}$ (tale che $t-p \in \mathcal{T}$) si abbia \[ X_t = \alpha_1 X_{t-1} + \alpha_2 X_{t-2}+ \ldots + \alpha_p X_{t-p } +W_t.\]

Usando l’operatore $L$ si può riscrivere l’equazione del modello $\operatorname{AR}(p)$ nel seguente modo compatto: \[ p(L) X_t = W_t,\] dove $p(L)$ è il polinomio formale nella variabile $L$ dato da \[ p(L) = 1- \alpha_1L -\alpha_2L ^2 - \ldots - \alpha_p L^p = 1 - \sum_{i=1}^p \alpha_i L^i.\]

7.3.2 Modelli MA

Vediamo ora il secondo “ingrediente”, ossia la componente a media mobile (moving average in inglese, MA). Il punto di partenza stavolta è l’operazione elementare di media mobile su una finestra temporale sinistra di ampiezza $q \ge 1$, in cui ad un processo $(Z_t)_{t \in \mathcal{T}}$ (o alle sue osservazioni) si sostituiscono le medie \[ \bar{Z}_t = \frac 1 q \sum_{i=0}^{q-1} Z_{t-i}.\] Osserviamo che si tratta di un caso particolare di convoluzione $Z * g$ tra il processo e il filtro \[ g (t ) = \begin{cases} \frac 1 q & \text{se $i=0,1, \ldots, (q-1)$}\\ 0 & \text{altrimenti.}\end{cases} \]

Remark. Notiamo che, qualsiasi sia $g$ (nota e fissata), se il processo $Z$ è stazionario (in senso lato o anche in senso stretto), anche $Z * g$ lo è (nello stesso senso). Ad esempio, la funzione di media è data da \[\E{ (Z * g)_t} = \E{ \sum_i Z_{t-1} g(i)} = \sum_i \E{Z_{t-1} } g(i) = m \sum_i g(i),\] avendo indicato con $m = \E{Z_s}$. La funzione di autocovariaza è, usando la bilinearità, \[ \begin{split} C(s,t) & = \Cov{ (Z * g)_s, (Z*g)_t} = \sum_{i} \sum_j g(i) g(j) \Cov{Z_{s-i}, Z_{t-j}}\\ &= \sum_{i} \sum_j g(i) g(j) C( (t-s) + (i-j)) \end{split}\] che dipende da $s,t$ solamente tramite la differenza. Inoltre, se $Z$ è un processo gaussiano, anche $Z*g$ lo è, perché è una trasformazione lineare di $Z$.

Vediamo quindi la definizione dei processi a media mobile.

Definizione 7.3 Dato $q \ge 0$, un processo $(X_t)_{t \in \mathcal{T}}$ è detto $\operatorname{MA}(p)$ (a media mobile di ordine $q$) se esistono parametri $\beta_1, \beta_2, \ldots, \beta_q \in \R$ tali che, per ogni $t \in \mathcal{T}$ (tale che $t-q \in \mathcal{T}$) si abbia \[ X_t = W_t + \beta_1 W_{t-1} + \beta_2 W_{t-2}+ \ldots + \beta_q W_{t-q }.\]

Per quanto osservato sopra, un processo a media mobile $\operatorname{MA}(q)$ è semplicemente del tipo $W * g$, dove $g$ è dato dai coefficienti $1$, $\beta_1$, $\beta_2$, , $\beta_q$ (e nullo altrove). In particolare, $X$ è gaussiano e stazionario (perché lo è il rumore bianco gaussiano).

Una notazione compatta usa anche in questo caso un polinomio dell’operatore ritardo: \[ X_t = q(L)W_t,\] dove \[ q(L ) = 1 + \beta_1 L + \ldots + \beta_q L^q = 1 + \sum_{j=1}^q \beta_q L^j.\]

7.3.3 Integrazione discreta

Presentiamo infine l’operazione di integrazione (I) a tempi discreti. Per introdurla conviene considerare prima l’operazione di derivazione, in cui l’idea è che la derivata di un processo $(X_t)_{t\in \mathcal{T}}$ a tempi discreti diventa la differenza finita \[ X_t - X_{t-1} = (1-L)X_t,\] per $t \ge 1$. Iterando per ottenere l’analogo discreto delle derivate di ordine superiore si trova che la derivata di ordine $d$ corrisponde a \[ (1-L)^d X_t = \sum_{i=0}^d { d \choose i} (-1)^i L^i X_t.\] La formula sopra si può anche pensare ad una convoluzione $X * g$, dove $g(i) = { d \choose i} (-1)^i$. Pertanto se $X$ è stazionario, lo è anche ogni derivata discreta di qualsiasi ordine $d$.

L’operazione di integrazione discreta è l’inversa della derivata discreta, e quindi diremo che $X$ è l’integrale discreto di $Y$ se $(1-L)X = Y$, e similmente se vogliamo considerare integrali iterati $d$ volte, dovrà valere $(1-L)^d X = Y$.

Esempio 7.1 Abbiamo già incontrato un esempio di processo ottenuto tramite integrazione discreta: è la passeggiata aleatoria gaussiana, $S_t = S_{t-1} + W_t$, che si può riscrivere anche come \[ (1-L) S _t =W_t.\] Questo esempio mostra anche che in generale l’integrazione discreta non mantiene la stazionarietà di un processo.

7.3.4 Definizione generale

Mettendo insieme i tre elementi visti sopra, diamo la definizione generale di un processo ARIMA.

Definizione 7.4 Dati $p, d, q \ge 0$, un processo $(X_t)_{t \in \mathcal{T}}$ è detto $\operatorname{ARIMA}(p,d,q)$ se esistono parametri $(\alpha_i)_{i=1}^p$, $(\beta_j)_{j=1}^q$ reali tali che, per ogni $t \in \mathcal{T}$ (tale che $t-d-p$ e $t-q \in \mathcal{T}$), posto \[ Y_t = (1-L)^d X_t\] valga \[ Y_t = \sum_{i=1}^p \alpha_i Y_{t-i} + W_t + \sum_{j=1}^q \beta_j W_{t-j}.\]

Usando i polinomi \[ p(L) = 1- \sum_{i=1}^ p \alpha_i L^i, \quad \text{e } \quad q(L) = 1+ \sum_{j=1}^q \beta_j L^j\] si può scrivere in forma compatta la definizione sopra nel seguente modo: \[ p(L)(1-L)^d X_t = q(L)W_t.\]

Esempio 7.2 Con questa definizione, il rumore bianco gaussiano è $\operatorname{ARIMA}(0,0,0)$, mentre la passeggiata aleatoria è $\operatorname{ARIMA}(0,1,0)$, e l’equazione lineare con smorzamento definisce un processo $\operatorname{ARIMA}(1,0,0)$.

Remark. Spesso una caratteristica dei dati osservati è di presentare una “periodicità approssimata”, o stagionalità dovuta ad esempio, ma non necessariamente, a cause cicliche, si pensi a fenomeni come la produzione agricola di un terreno o i livelli di acqua mensili registrati in un lago. Anche se non è necessario, è possibile specificare una struttura nell’equazione definente un modello ARIMA per tenere conto della stagionalità. Supponiamo infatti che il periodo consista di $s$ unità di tempo: allora si può imporre che, per ulteriori polinomi $P(L^s)$, $Q(L^s$, di gradi rispettivamente $P$ e $Q$ e per $D \ge 1$ l’equazione sia del tipo \[ P(L^s) (1-L^s)^D p(L)(1-L)^d X_ t = Q(L^s) P(L^s) W_t. \] Un tale processo è indicato anche come $\operatorname{SARIMA}(p,d,q)(P,D,Q)_s$. Anche se in apparenza il numero dei parametri cresce, questa parametrizzazione può essere più efficace di considerare semplicemente un modello ARIMA con $p$, $d$, $q$ molto grandi (in modo da includere gli effetti dovuti alla stagionalità).