7.3 Modelli ARIMA: definizione
In questa sezione generalizziamo gli esempi visti sopra introducendo una famiglia generale di processi, detti ARIMA, che è una abbreviazione per l’espressione inglese AutoRegressive Integrated Moving Average (in italiano, autoregressivi integrati a media mobile). Come vedremo sono piuttosto semplici da parametrizzare ma risultano flessibili e utili per l’inferenza sui processi (in particolare la previsione dei valori futuri a partire dall’osservazione di una serie storica).
Per arrivare alla definizione generale conviene studiare separatamente i tre “ingredienti” principali che vanno a comporre un processo ARIMA, e precisamente la componente autoregressiva (AR), quella a media mobile (MA) e il procedimento di integrazione (I) a tempi discreti.
In tutta questa sezione supporremo che \(\mathcal{T} = \cur{0,1, \ldots, n}\) oppure \(\mathcal{T} = \N\) o anche \(\mathcal{T} = \mathbb{Z}\), e che \((W_t)_{t \in \mathcal{T}}\) sia un rumore bianco gaussiano di intensità \(\sigma^2\).
Introduciamo anche l’operatore di ritardo (lag) \(L\) che trasforma un processo \((X_t)_{t \in \mathcal{T}}\) in \((LX)_t = X_{t-1}\) (pensato come processo sui tempi \(t \ge 1\) se \(\mathcal{T} = \cur{0,1, \ldots, n}\) oppure \(\mathbb{N}\)). Spesso, per alleggerire la notazione, scriviamo semplicemente \(LX_t\) invece di \((LX)_t\).
L’operatore \(L\) è lineare: \[ L(X+Y)_t = X_{t-1}+Y_{t-1} = LX_t + LY_t, \quad L(c X)_t = c LX_t.\] inoltre componendo \(L\) con se stesso si ottengono ritardi di ordine superiore: \(L^2X_t = LLX_t = X_{t-2}\), \(L^3X_t = X_{t-3}\), ecc. Il vantaggio di questa notazione è che espressioni del tipo \[ a_0 X_t + a_1 X_{t-1}+ \ldots +a_k X_{t-k} = a_0 X_t + a_1LX_t +a_2 L^2 X_t + \ldots a_k L^k X_t\] si possono pensare come all’azione di un polinomio (formale) nella variabile \(L\), precisamente \[p(L) X_t = (a_0 + a_1L +a_2 L^2 + \ldots a_k L^k ) X_t.\] Vedremo infatti che i modelli ARIMA si descrivono agevolmente usando polinomi di questo tipo.
7.3.1 Modelli AR
I modelli autoregressivi generalizzano il caso dell’equazione lineare con smorzamento della sezione precedente. L’osservazione di base è che l’equazione \[ X_t = \alpha X_{t-1} + W_t\] può essere pensata in termini di regressione lineare semplice, cui la variabile del processo \(X_t\) è stimata a partire dallo stesso processo, ma con ritardo, ossia \(X_{t-1}\) (da cui il termine autoregressivo). L’idea è quindi di estendere al caso di una regressione lineare multipla, su \(p \ge 1\) istanti precedenti.
Definizione 7.2 Dato \(p \ge 0\), un processo \((X_t)_{t \in \mathcal{T}}\) è detto \(\operatorname{AR}(p)\) (autoregressivo di ordine \(p\)) se esistono parametri \(\alpha_1, \alpha_2, \ldots, \alpha_p \in \R\) tali che, per ogni \(t \in \mathcal{T}\) (tale che \(t-p \in \mathcal{T}\)) si abbia \[ X_t = \alpha_1 X_{t-1} + \alpha_2 X_{t-2}+ \ldots + \alpha_p X_{t-p } +W_t.\]
Usando l’operatore \(L\) si può riscrivere l’equazione del modello \(\operatorname{AR}(p)\) nel seguente modo compatto: \[ p(L) X_t = W_t,\] dove \(p(L)\) è il polinomio formale nella variabile \(L\) dato da \[ p(L) = 1- \alpha_1L -\alpha_2L ^2 - \ldots - \alpha_p L^p = 1 - \sum_{i=1}^p \alpha_i L^i.\]
7.3.2 Modelli MA
Vediamo ora il secondo “ingrediente”, ossia la componente a media mobile (moving average in inglese, MA). Il punto di partenza stavolta è l’operazione elementare di media mobile su una finestra temporale sinistra di ampiezza \(q \ge 1\), in cui ad un processo \((Z_t)_{t \in \mathcal{T}}\) (o alle sue osservazioni) si sostituiscono le medie \[ \bar{Z}_t = \frac 1 q \sum_{i=0}^{q-1} Z_{t-i}.\] Osserviamo che si tratta di un caso particolare di convoluzione \(Z * g\) tra il processo e il filtro \[ g (t ) = \begin{cases} \frac 1 q & \text{se $i=0,1, \ldots, (q-1)$}\\ 0 & \text{altrimenti.}\end{cases} \]
Remark. Notiamo che, qualsiasi sia \(g\) (nota e fissata), se il processo \(Z\) è stazionario (in senso lato o anche in senso stretto), anche \(Z * g\) lo è (nello stesso senso). Ad esempio, la funzione di media è data da \[\E{ (Z * g)_t} = \E{ \sum_i Z_{t-1} g(i)} = \sum_i \E{Z_{t-1} } g(i) = m \sum_i g(i),\] avendo indicato con \(m = \E{Z_s}\). La funzione di autocovariaza è, usando la bilinearità, \[ \begin{split} C(s,t) & = \Cov{ (Z * g)_s, (Z*g)_t} = \sum_{i} \sum_j g(i) g(j) \Cov{Z_{s-i}, Z_{t-j}}\\ &= \sum_{i} \sum_j g(i) g(j) C( (t-s) + (i-j)) \end{split}\] che dipende da \(s,t\) solamente tramite la differenza. Inoltre, se \(Z\) è un processo gaussiano, anche \(Z*g\) lo è, perché è una trasformazione lineare di \(Z\).
Vediamo quindi la definizione dei processi a media mobile.
Definizione 7.3 Dato \(q \ge 0\), un processo \((X_t)_{t \in \mathcal{T}}\) è detto \(\operatorname{MA}(p)\) (a media mobile di ordine \(q\)) se esistono parametri \(\beta_1, \beta_2, \ldots, \beta_q \in \R\) tali che, per ogni \(t \in \mathcal{T}\) (tale che \(t-q \in \mathcal{T}\)) si abbia \[ X_t = W_t + \beta_1 W_{t-1} + \beta_2 W_{t-2}+ \ldots + \beta_q W_{t-q }.\]
Per quanto osservato sopra, un processo a media mobile \(\operatorname{MA}(q)\) è semplicemente del tipo \(W * g\), dove \(g\) è dato dai coefficienti \(1\), \(\beta_1\), \(\beta_2\), , \(\beta_q\) (e nullo altrove). In particolare, \(X\) è gaussiano e stazionario (perché lo è il rumore bianco gaussiano).
Una notazione compatta usa anche in questo caso un polinomio dell’operatore ritardo: \[ X_t = q(L)W_t,\] dove \[ q(L ) = 1 + \beta_1 L + \ldots + \beta_q L^q = 1 + \sum_{j=1}^q \beta_q L^j.\]
7.3.3 Integrazione discreta
Presentiamo infine l’operazione di integrazione (I) a tempi discreti. Per introdurla conviene considerare prima l’operazione di derivazione, in cui l’idea è che la derivata di un processo \((X_t)_{t\in \mathcal{T}}\) a tempi discreti diventa la differenza finita \[ X_t - X_{t-1} = (1-L)X_t,\] per \(t \ge 1\). Iterando per ottenere l’analogo discreto delle derivate di ordine superiore si trova che la derivata di ordine \(d\) corrisponde a \[ (1-L)^d X_t = \sum_{i=0}^d { d \choose i} (-1)^i L^i X_t.\] La formula sopra si può anche pensare ad una convoluzione \(X * g\), dove \(g(i) = { d \choose i} (-1)^i\). Pertanto se \(X\) è stazionario, lo è anche ogni derivata discreta di qualsiasi ordine \(d\).
L’operazione di integrazione discreta è l’inversa della derivata discreta, e quindi diremo che \(X\) è l’integrale discreto di \(Y\) se \((1-L)X = Y\), e similmente se vogliamo considerare integrali iterati \(d\) volte, dovrà valere \((1-L)^d X = Y\).
Esempio 7.1 Abbiamo già incontrato un esempio di processo ottenuto tramite integrazione discreta: è la passeggiata aleatoria gaussiana, \(S_t = S_{t-1} + W_t\), che si può riscrivere anche come \[ (1-L) S _t =W_t.\] Questo esempio mostra anche che in generale l’integrazione discreta non mantiene la stazionarietà di un processo.
7.3.4 Definizione generale
Mettendo insieme i tre elementi visti sopra, diamo la definizione generale di un processo ARIMA.
Definizione 7.4 Dati \(p, d, q \ge 0\), un processo \((X_t)_{t \in \mathcal{T}}\) è detto \(\operatorname{ARIMA}(p,d,q)\) se esistono parametri \((\alpha_i)_{i=1}^p\), \((\beta_j)_{j=1}^q\) reali tali che, per ogni \(t \in \mathcal{T}\) (tale che \(t-d-p\) e \(t-q \in \mathcal{T}\)), posto \[ Y_t = (1-L)^d X_t\] valga \[ Y_t = \sum_{i=1}^p \alpha_i Y_{t-i} + W_t + \sum_{j=1}^q \beta_j W_{t-j}.\]
Usando i polinomi \[ p(L) = 1- \sum_{i=1}^ p \alpha_i L^i, \quad \text{e } \quad q(L) = 1+ \sum_{j=1}^q \beta_j L^j\] si può scrivere in forma compatta la definizione sopra nel seguente modo: \[ p(L)(1-L)^d X_t = q(L)W_t.\]
Esempio 7.2 Con questa definizione, il rumore bianco gaussiano è \(\operatorname{ARIMA}(0,0,0)\), mentre la passeggiata aleatoria è \(\operatorname{ARIMA}(0,1,0)\), e l’equazione lineare con smorzamento definisce un processo \(\operatorname{ARIMA}(1,0,0)\).
Remark. Spesso una caratteristica dei dati osservati è di presentare una “periodicità approssimata”, o stagionalità dovuta ad esempio, ma non necessariamente, a cause cicliche, si pensi a fenomeni come la produzione agricola di un terreno o i livelli di acqua mensili registrati in un lago. Anche se non è necessario, è possibile specificare una struttura nell’equazione definente un modello ARIMA per tenere conto della stagionalità. Supponiamo infatti che il periodo consista di \(s\) unità di tempo: allora si può imporre che, per ulteriori polinomi \(P(L^s)\), \(Q(L^s\), di gradi rispettivamente \(P\) e \(Q\) e per \(D \ge 1\) l’equazione sia del tipo \[ P(L^s) (1-L^s)^D p(L)(1-L)^d X_ t = Q(L^s) P(L^s) W_t. \] Un tale processo è indicato anche come \(\operatorname{SARIMA}(p,d,q)(P,D,Q)_s\). Anche se in apparenza il numero dei parametri cresce, questa parametrizzazione può essere più efficace di considerare semplicemente un modello ARIMA con \(p\), \(d\), \(q\) molto grandi (in modo da includere gli effetti dovuti alla stagionalità).