8.3 Teoremi Ergodici
L’argomento che ha portato alla dimostrazione della legge dei grandi numeri nella sezione precedente usa fortemente l’ipotesi di non correlazione tra le variabili \((X_i)_{i=1}^\infty\). Senza questa ipotesi, la varianza della media campionaria è in generale la somma di \(n^2\) termini \[ \Var{ \bar {X}_n} = \frac{1}{n^2} \sum_{i,j=1}^n\Cov{X_i, X_j},\] e quindi non segue necessariamente che sia infinitesima, anche tenendo in conto del denominatore \(n^2\). Questo tuttavia può accadere se \(\Cov{X_i, X_j}\) è infinitesimo per “molte” coppie, come avviene spesso nel caso di processi stocastici.
Dato infatti un processo stocastico \((X_t)_{t = 1}^\infty\), ad esempio sull’insieme dei tempi \(\mathcal{T} = \cur{1,2,3\ldots}\), la media \(\bar{X}_T = \frac 1 T \sum_{t=1}^T X_t\) si può pensare come alla media della traiettoria del processo sui primi \(T\) tempi. Più in generale, se l’insieme degli stati \(E\) del processo non è un sottoinsieme di \(\R\), si può considerare una qualsiasi funzione \(g:E \to \R\) e considerare la media \[ \overline{ g(X)}_T = \frac 1 T \sum_{t=1}^T g(X_t).\] La funzione \(g\) è anche detta anche osservabile e rappresenta una quantità misurabile a partire dal processo. La legge dei grandi numeri in questo caso riguarda la convergenza al tendere dei tempi all’infinito delle variabili aleatorie \(\overline{ g(X)}_T\), \[ \lim_{T \to \infty }\overline{ g(X)}_T. \] Se si suppone che il processo \((X_t)_t\) sia stazionario, è possibile identificare il limite (se esiste) come il valor medio di \(g\) rispetto alla legge marginale in un qualsiasi istante, ad esempio nel caso di \(E\) discreto \[ \E{g(X_i)} = \sum_{ x \in E} g(x) P(X_i=x).\]
Esempio 8.1 Consideriamo come osservabile \(g\) la funzione indicatrice di un qualsiasi stato \(x_0 \in E\), \[ g(x) = \begin{cases} 1 & \text{se $x = x_0$}\\ 0 & \text{se $x \neq x_0$.}\end{cases}\] Allora \(\overline{g(X)}_T\) è la frazione di tempo trascorsa dal processo sullo stato \(x_0\), dal tempo \(t=1\) al tempo \(t=T\). Il valor medio invece è semplicemente la probabilità \(\E{g(X_i)} = P(X_i = x_0)\). La stessa cosa avviene se invece dell’indicatrice di uno stato, si considera l’indicatrice di un sottoinsieme \(E_0 \subseteq E\) di stati.
La possibilità di identificare le due medie, quella sui tempi \(\overline{g(X)}_T\) e quella sugli stati \(\E{g(X_i)}\) è in un certo senso analoga all’intepretazione della probabilità come limite delle frequenze sugli esperimenti ripetuti. Risultati che garantiscono tale possibilità sono storicamente detti teoremi ergodici, un termine che proviene dalla meccanica statistica.
Con una opportuna variante dell’argomento per la legge dei grandi numeri, possiamo mostrare il seguente risultato.
Teorema 8.2 (teorema ergodico) Sia \((X_t)_{t =0}^\infty\) un processo stazionario sull’insieme degli stati \(E\) e sia \(g: E \to \R\) una osservabile. Se \[ \lim_{t \to \infty} \Cov{g(X_0), g(X_t)} = 0,\] allora vale la convergenza in media quadratica e in probabilità \[ \lim_{ T \to \infty} \overline{g(X)}_T = \E{ g(X_0)}.\] (dove per semplicità abbiamo specificato \(X_0\), ma un qualsiasi altro tempo \(X_t\) sarebbe lo stesso, essendo il processo stazionario).
Proof. Poniamo per semplicità di notazione \(Y_t = g(X_t)\). L’ipotesi di stazionarietà di \((X_t)\) implica che anche \((Y_t)\) sia stazionario e quindi la sua funzione di autocovarianza soddisfa \[ C(s,t) = C(0, |t-s|) = \Cov{g(X_0), g(X_{|t-s|})},\] che per ipotesi è infinitesima al tendere di \(|t-s| \to \infty\). Consideriamo ora il valor medio e la varianza della variabile aleatoria \[\bar{Y}_T = \frac 1 T \sum_{t=1}^TY_t.\] Per linearità del valor medio e stazionarietà \[ \E{ \bar{Y}_T} = \frac 1 T \sum_{t=1}^T \E{Y_t} = \E{Y_0} = \E{g(X_0)}\] è costante, mentre per la varianza scriviamo \[\Var{\bar{Y}_T } = \frac 1 {T^2} \sum_{s,t=1}^T C(s,t) = \frac 1 {T^2} \sum_{s,t=1}^T C(0,|t-s|) .\] Osserviamo che, per ciascun \(k=0, \ldots, T\), vi sono al più \(2T\) coppie \((s,t)\) nella somma sopra con \(|t-s| = k\) (corrispondenti al casi \(t=s+k\) e \(t=s-k\)). Pertanto possiamo stimare \[ \frac 1 {T^2} \sum_{s,t=1}^T C(0,|t-s|) \le \frac{1}{T^2} \sum_{k=0}^T 2 T |C(0,k)| \le \frac{2}{T} \sum_{k=0}^T |C(0,k)|.\] Il fatto che la somma sopra sia infinitesima, grazie all’ipotesi che \(C(0,k)\) lo sia, è una conseguenza nota di un teorema di analisi dovuto a Cesaro. Ecco i dettagli: fissato \(\varepsilon>0\), sia \(k_{\varepsilon}\) tale che, \[ \text{ se $k> k_{\varepsilon}$, allora $|C(0,k)| < \varepsilon$.} \] Ne segue che \[ \frac{2}{T} \sum_{k=0}^T |C(0,k)| \le \frac{2}{T} \sum_{k=0}^{k_\varepsilon} |C(0,k)| + \frac{2}{T} |T-k_{\varepsilon}| \varepsilon\] e il membro di destra al tendere di \(T \to \infty\) è più piccolo di \(2 \varepsilon\). Essendo \(\varepsilon\) arbitrariamente piccolo, concludiamo che \[\lim_{ T \to \infty} \frac{2}{T} \sum_{k=0}^T |C(0,k)| = 0.\]
Remark. Con un argomento simile si può ottenere un teorema ergodico anche nel caso di processi a tempi continui (con applicazioni ad esempio ai processi di Markov a salti). In tal caso la media sui tempi va intesa come l’integrale \[ \overline{g(X)}_T = \frac 1 T \int_0^T g(X_t) dt.\]
Per applicare il teorema è quindi importante verificare, oltre alla stazionarietà del processo, l’ipotesi sul limite della funzione di autocovarianza (detta anche appunto ipotesi di ergodicità). In molti modelli è possibile argomentare in generale che essa vale. Diamo i seguenti risultati senza vederne la dimostrazione.
Teorema 8.3 Sia \((X_t)_{t}\) una catena di Markov stazionaria e irriducibile su un insieme di stati finito \(E\). Allora per ogni \(g: E \to \R\) vale la convergenza \[ \lim_{ T \to \infty} \overline{g(X)}_T = \sum_{i \in E} g(i) \pi_i,\] dove \(\pi = (\pi_i)_{i\in E}\) è l’unica distribuzione invariante per la catena.
In particolare, la frazione di tempo trascorsa dalla catena su uno stato è, nel limite, pari alla probabilità che la catena si trovi su quello stato.
Un teorema analogo vale per processi di Markov a salti, dove la media nel tempo è intesa come integrale. Vediamo infine il caso dei processi a stati continui. In questo caso siamo interessati alla convergenza delle medie e delle funzioni di autocovarianza campionarie.
Teorema 8.4 Sia \((X_t)_{t}\) un processo \(\operatorname{ARIMA}(p,0,q)\) stazionario. Allora \[ \lim_{T \to \infty} \overline{X}_T = 0,\] e per ogni \(t\in \mathbb{N}\), \[ \lim_{T \to \infty} \frac 1 T \sum_{s=1}^T X_s X_{s+t} = C(0,t).\]
L’ultimo limite sopra mostra che la funzione di autocovarianza empirica converge a quella teorica: questo teorema, che pure vale per processi stazionari anche più generali degli ARIMA, giustifica ulteriormente l’uso della funzione di autocorrelazione empirica (tramite ad esempio la funzione acf()
in \(R\)) per stimare quella teorica.