8.1 Convergenza di variabili aleatorie
Prima di discutere i teoremi limite di questa sezione, dobbiamo specificare in che senso una successione di variabili aleatorie \((X_n)_{n=1}^\infty\) approssimi una variabile aleatoria limite \(X_\infty\) (o invertendo il punto di vista, la variabile limite \(X_\infty\) sia una buona approssimazione delle variabili \(X_n\) al crescere di \(n\)).
Ci sono molteplici nozioni, ma gli approcci principali sono essentialmente due:
- si afferma che la distanza \(|X_n - X_\infty|\) diventa piccola, con grande probabilità, al crescere di \(n\),
- oppure si afferma che le leggi di \(X_n\) convergono verso la legge di \(X_\infty\), ad esempio confrontandone le densità, le \(\CDF\), le \(\MGF\), i momenti, ecc.
La differenza più rilevante è che nel primo caso interviene la legge congiunta delle variabili, ad esempio tra \(X_n\) e \(X_\infty\) per costruire la variabile composta \(|X_n - X_\infty|\), mentre nel secondo caso si considerano solamente le leggi marginali. Tipicamente il primo approccio fornisce nozioni più forti di convergenza rispetto al secondo, ma entrambi sono utili.
Partendo da queste premesse, diamo due definizioni legate al primo approccio.
Definizione 8.1 Siano \((X_n)_{n=1}^\infty\) e \(X_\infty\) variabili aleatorie a valori in \(\R^d\). Diciamo che \(X_n\) converge verso \(X_\infty\)
- in probabilità se per ogni \(\varepsilon>0\), si ha \[ \lim_{n \to \infty} P( |X_n - X_\infty| \le \varepsilon) = 1,\] oppure, equivalentemente, \[ \lim_{n \to \infty} P( |X_n - X_\infty| > \varepsilon) = 0;\]
- in media quadratica se vale \[ \lim_{n \to \infty } \E{ |X_n - X_\infty|^2} = 0.\]
In entrambi i casi vediamo che la legge congiunta di \((X_n, X_\infty)\) è rilevante ai fini del calcolo delle probabilità o del valor medio.
Remark. C’è una implicazione tra le due nozioni di convergenza: se vale la convergenza in media quadratica, allora vale anche in probabilità. Questo perché la diseguaglianza di Markov implica che \[ P( |X_n - X_\infty| > \varepsilon) = P( |X_n - X_\infty|^2 > \varepsilon^2 ) \le \frac{ \E{ |X_n - X_\infty|^2}}{\varepsilon^2},\] e quindi se il membro a destra è infinitesimo anche quello a sinistra lo è (osserviamo che \(\varepsilon>0\) è arbritrario ma fissato, non dipende da \(n\)).
Mentre la nozione di convergenza in probabilità è abbastanza intuitiva (si richiede che con probabilità che tende ad \(1\) le due variabili \(X_n\) e \(X_\infty\) siano vicine meno di \(\varepsilon\)) il vantaggio della convergenza in media quadratica è di poter sfruttare le proprietà di calcolo legate al valor medio e alla varianza. Ad esempio, vale il seguente risultato:
Proposizione 8.1 Siano \((X_n)_{n=1}^\infty\) variabili aleatorie a valori in \(\R^d\). Allora \(X_n\) converge verso una costante \(c \in \R^d\) se e solo se \[ \E{X_n} \to c \quad \text{e} \quad \Sigma_{X_n} \to 0.\]
Proof. Dimostriamolo per semplicità nel caso reale, ossia \(d=1\). Calcoliamo \[ \begin{split} \E{ |X_n - c|^2 } & = \E{ |X_n - \E{X_n} + \E{X_n} - c|^2 } \\ & = \E{ |X_n - \E{X_n}|^2 } + \E{|\E{X_n} - c|^2 } \\ & \quad + 2 \E{ (X_n - \E{X_n})(\E{X_n} - c)}\\ & = \Var{X_n} + \E{|\E{X_n} - c|^2 } \end{split}\] perché il doppio prodotto non contribuisce: \[ \begin{split} \E{ (X_n - \E{X_n})(\E{X_n} - c)} & = \E{ (X_n - \E{X_n})} (\E{X_n} - c) \\ & = ( \E{X_n} - \E{X_n}) (\E{X_n} - c) = 0. \end{split}\] L’espressione trovata è la somma di due quantità positive, è chiaro quindi che c’è convergenza in media quadratica verso una costante \(c\) se e solo se entrambe convergono a zero.
Veniamo ora ad una definizione di convergenza basata sul secondo approccio. L’idea più semplice sarebbe di confrontare le densità delle \(X_n\) con la densità del limite \(X_\infty\). Tuttavia tale nozione sarebbe poco utile nel caso in cui ad esempio le \(X_n\) siano tutte discrete mentre il limite è continuo. Questo ostacolo si può superare confrontando invece le funzioni di ripartizione (nel caso di variabili reali) oppure, nel caso vettoriale, confrontando le \(\operatorname{MGF}\) o le funzioni caratteristiche.
Definizione 8.2 Siano \((X_n)_{n=1}^\infty\) e \(X_\infty\) variabili aleatorie a valori in \(\R^d\). Diciamo che \(X_n\) converge verso \(X_\infty\) in legge se
nel caso \(d=1\), si ha \[ \lim_{n \to \infty} \CDF_{X_n}(t) = \CDF_X(t)\] per ogni \(t \in \R\) eccetto al più i punti \(t\) in cui \(\CDF_X(t)\) ha una discontinuità di tipo salto (ossia \(P(X=t)>0\))
nel caso generale \(d \ge 1\), si ha \[ \lim_{n \to \infty} \MGF_{X_n}(t) = \MGF_{X_\infty}(t)\] per ogni \(t\) in cui \(\MGF_{X_\infty}(t)\) sia finita, supponendo che \(\MGF_X(t)\) sia finita per \(t\) sufficientemente piccolo. In alternativa, si può richiedere la convergenza delle funzioni caratteristiche per ogni \(\omega \in \R\), \[ \lim_{n \to \infty} \varphi_{X_n}(\omega) =\varphi_{X_\infty}(\omega).\]
Se \(d=1\) e la variabile \(X_\infty\) ha densità continua, allora \(\CDF_{X_\infty}\) è continua e possiamo richiedere la convergenza in ogni \(t \in \R\). Tuttavia la convergenza in legge richiede comunque meno della convergenza delle densità (anche supponendo che tutte le \(X_n\) abbiano densità continua).
Remark. Il fatto che le due nozioni di convergenza in legge introdotto sopra siano equivalenti se \(d=1\) è un risultato che non dimostriamo. Una ulteriore riformulazione della convergenza in legge è la seguente: vale \[ \lim_{n \to \infty} \E{ g(X_n)} = \E{g(X_\infty)}\] per ogni funzione \(g\) continua ovunque e uniformemente limitata (ossia esiste una costante \(c\) tale che \(|g(x)| \le c\) per ogni \(x \in \R^d\)).
È possibile mostrare, ma non lo faremo, che la convergenza in probabilità implica la convergenza in legge.