8.2 Legge dei grandi numeri
La legge dei grandi numeri fornisce un supporto rigoroso all’intepretazione di probabilità di una affermazione \(A\) come frequenza relativa con cui essa si realizza in una successione di esperimenti ripetuti, sotto le stesse condizioni, ma tutti indipendenti tra loro. In questa sezione ne diamo una dimostrazione usando la convergenza in media quadratica (e quindi in probabilità). Prima di affrontare il risultato generale, studiamo il caso più semplice delle estrazioni con rimpiazzo dal solito modello dell’urna.
8.2.1 Modello dell’urna
Supponiamo di avere un’urna in cui la frazione delle palline rosse è \(r \in [0,1]\). Allora se si effettuano \(n\) estrazioni con rimpiazzo, il numero \(R_n\) di palline rosse osservate ha densità binomiale di parametri \((n,r)\). In particolare ha valor medio \(\E{R_n} = nr\) e varianza \(\Var{R_n} = nr(1-r)\), ossia deviazione standard \[\sigma_{R_n} = \sqrt{ n r (1-r)}.\] Ne segue che la frequenza relativa di palline rosse osservate (sulle \(n\) estrazioni effettuate), \(R_n/n\) ha valor medio \[ \E{ R_n/n} = r\] e varianza \[ \Var{R_n/n}= \frac{n r(1-r)}{n^2} = \frac{r(1-r)}{n}.\] Passando alla deviazione standard otteniamo per la frequenza relativa \[ \sigma_{R_n/n} = \sqrt{ \frac{ r(1-r)}{n}}.\]
Informalmente, possiamo quindi scrivere la seguente approssimazione: \[ \frac{R_n}{n} \approx r \pm \sqrt{ \frac{ r(1-r)}{n}}.\] Al tendere di \(n \to \infty\) vediamo quindi che \(R_n/n\) converge verso la frazione di palline rosse sul totale \(r\), che è anche la probabilità di estrarre una pallina rossa in una singola estrazione. Precisamente, al tendere di \(n \to \infty\), il valor medio di \(R_n/n\) è costante e pari ad \(r\), mentre la varianza è infinitesima. Perciò, vale la convergenza in media quadratica \[ \E{ \abs{ \frac{R_n}{n} - r}^2 } = \frac{ r(1-r)}{n} \to 0 \] e quindi in probabilità \[ P\bra{ \abs{ \frac{R_n}{n} - r} \le \varepsilon} \ge 1- \frac{ r(1-r)}{n} \to 1 .\]
Questa è la versione della legge dei grandi numeri nel modello delle estrazioni dall’urna, che si estende ovviamente a una qualsiasi situazione in cui vi siano un grande numero, potenzialmente illimitato, di esperimenti ripetuti, tutti indipendenti tra loro, e ciascuno con probabilità di sucesso \(p \in [0,1]\). La frequenza relativa del numero di successi sul totale degli esperimenti converge quindi alla probabilità di successo di un singolo esperimento.
Tale risulto permette l’intepretazione rigorosa di probabilità come frequenza, un punto di vista piuttosto diffuso ma che comunque fin dall’inizio abbiamo notato essere troppo restrittivo per molte applicazioni – in alcuni contesti non possiamo immaginare infiniti esperimenti ripetuti.
La legge dei grandi numeri è comunque utile per la stima della probabilità \(p\) di successo in un esperimento, qualora non fosse nota. Tornando all’esempio dell’urna e riprendendo l’esempio del robot, supponiamo infatti che inizialmente non sia informato della frazione di palline rosse in essa contenuta e quindi introduca una variabile aleatoria \(R\) a valori in \([0,1]\) (ad esempio a priori uniforme, ma una qualsiasi densità andrebbe bene lo stesso). Allora, può affermare che \[ \begin{split} P( |R_n/n - R| \le \varepsilon ) & = \int_0^1 P( |R_n/n - r| \le \varepsilon |R = r) dr \\ & \ge 1- \frac{\int_0^1 r(1-r) dr }{n\varepsilon^2} = 1- \frac{1}{6n \varepsilon^2} \to 1 \end{split}\] per \(n \to \infty\), ossia con alta probabilità la frequenza relativa \(R_n/n\) è vicina alla variabile \(R\) (precisamente abbiamo mostrato la convergenza in probabilità). Notiamo che la probabilità calcolata sopra è rispetto all’informazione a priori, ossia prima di effettuare le estrazioni (o prima di essere informati dell’esito).
Remark. Nonostante l’apparente semplicità, la legge dei grandi numeri nel caso delle estrazioni dall’urna, o più in generale in situazioni di esperimenti indipendenti ripetuti con esito binario (successo/insuccesso) ha molteplici applicazioni. Usando questo risultato possiamo spiegare perché l’istogramma relativo ad \(n\) osservazioni di variabili indipendenti, tutte con la stessa densità debba essere molto vicino al grafico della densità teorica. Abbiamo visto l’utilità di questo fatto nella sezione 5.8 per valutare l’ipotesi di gaussianità, ad esempio dei residui di una regressione.
Siano infatti \((X_i)_{i=1}^n\) variabili indipendenti tutte con la medesima densità (ad esempio continua). Allora supponendo di considerare un rettangolo di base \(a<b \in \R\), l’istogramma delle frequenze (assolute) avrà altezza \(H(a,b)\) pari al numero delle \(X_i\) tali che \(a<X_i \le b\), mentre quello delle densità è ulteriormente diviso il numero delle osservazioni \(n\) e per la lunghezza della base \((b-a)\). Questa differenza è particolarmente rilevante se i rettangoli non hanno tutti la stessa lunghezza della base, mentre nel caso di basi con la stessa lunghezza è solamente una dilatazione nell’asse delle ordinate.
# usiamo i dati del dataset Iris
par(mfrow = c(1, 2))
hist(iris$Sepal.Length, freq = TRUE, col = miei_colori[1],
main = "", xlab = "lunghezza sepali",
ylab = "frequenza")
hist(iris$Sepal.Length, freq = FALSE, col = miei_colori[2],
main = "", xlab = "lunghezza sepali",
ylab = "densità")
Possiamo quindi pensare ad un “successo” se \(X_i \in (a,b]\), con probabilità \[ r = P(X_1 \in (a,b]) = \int_a^b p(X_1 = x) dx\approx p(X_1=a)(b-a),\] dove nell’ultima approssimazione supponiamo la densità abbastanza regolare e \(b-a\) sufficientemente piccolo.
Considerando \(n\) esperimenti indipendenti si avrà quindi che \[ \frac{ H(a,b)}{n} \approx r \pm \sqrt{ \frac{ r(1-r)}{n}} \approx p(X_1=a)(b-a),\] e quindi l’istogramma delle densità, che ha altezza \(H(a,b)/(n(b-a))\), è, con alta probabilità vicino alla densità comune. Un ragionamento simile si può effettuare anche per variabili discrete, e pure per le funzioni di ripartizione e i quantili (giustificando anche l’approccio qualitativo all’ipotesi di gaussianità mediante QQ-plot).
8.2.2 Un risultato generale
Il risultato valido per la frequenza relativa dei successi in \(n\) esperimenti indipendenti si può estendere a situazioni più generali, in cui l’esito di ciascun “esperimento” sia una variabile aleatoria \(X_i\) a valori reali (in realtà anche vettoriali, ma non ce ne occupiamo per semplicità). Immaginiamo la situazione in cui si effettuano più misurazioni di una medesima quantità, affette da errori, se presenti, indipendenti o comunque poco correlati tra loro (dovuti ad esempio a circostanze esterne che non possiamo controllare). Allora la frequenza relativa dei successi può essere sostituita dalla media empirica \[ \bar{X}_n = \frac 1 n \sum_{i=1}^n X_i,\] che è una variabile aleatoria (come abbiamo già osservato nella sezione precedente la legge dei grandi numeri è un risultato di convergenza rispetto all’informazione a priori, ossia prima di essere informati degli esiti degli esperimenti, quindi \(\bar{X}_n\) non è nota).
Nel caso degli esperimenti, per dedurre la convergenza in media quadratica delle frequenze relative, abbiamo usato il fatto che la legge della somma \(\sum_{i=1}^nX_i\), ossia il numero di successi, ha densità discreta binomiale di parametri \((n,p)\). Tuttavia ripercorrendo l’argomento, basta conoscere molto meno: infatti è sufficiente che il valor medio \(\E{\bar{X}_n}\) converga a una costante \(m\) e la varianza \(\Var{\bar{X}_n}\) sia infinitesima per \(n \to \infty\): sotto queste condizioni infatti il criterio della Sezione 8.1 garantisce la convergenza \(\lim_{n \to \infty} \bar{X}_n = m\).
Sfruttando questa osservazione, enunciamo il seguente risultato, noto appunto come legge dei grandi numeri17. Notiamo che l’indipendenza può essere indebolita richiedendo solo l’assenza di correlazione.
Teorema 8.1 (legge dei grandi numeri) Siano \((X_n)_{n =1}^\infty\) variabili aleatorie non correlate, tutte con lo stesso valor medio e varianza \[ \E{X_n} = m, \quad \Var{X_n} = \sigma^2 < \infty.\] Allora, si ha la convergenza in media quadratica (e quindi in probabilità) \[ \lim_{n \to \infty} \frac{1}{n} \sum_{i=1}^n X_i = m.\]
Proof. Posta \(\bar{X}_n = \frac 1 n \sum_{i=1}^n X_i\) la media campionaria, usiamo la linearità per calcolare
\[\begin{split} \E{\bar{X}_n } & = \E{ \frac 1 n \sum_{i=1}^n X_i} = \frac 1 n \sum_{i=1}^n \E{X_i} = \frac 1 n \sum_{i=1}^n m \\
& = m \end{split}\]
e l’ipotesi \(\Cov{X_i, X_j} = 0\) per \(i \neq j\) per ottenere che
\[\begin{split} \Var{\bar{X}_n } & = \frac 1 {n^2} \Var{\sum_{i=1}^n X_i}\\
& = \frac 1 {n^2} \sum_{i=1}^n \Var{X_i} \\
& = \frac 1{n^2 } \sum_{i=1}^n \sigma^2 \\
& = \frac{1}{n^2} \cdot n \sigma^2 \\
& = \frac{\sigma^2}{n},
\end{split}\]
che al tendere di \(n \to \infty\) è infinitesima.
Remark. Dalla dimostrazione segue che la deviazione standard della variabile \(\bar{X}_n\) è \[\sigma_{\bar{X}_n} = \sqrt{ \Var{ \bar{X}_n}} = \frac{\sigma}{\sqrt{n}},\] e quindi informalmente possiamo scrivere \[ \bar{X}_n = m \pm \frac{\sigma}{\sqrt{n}}.\]
La legge dei grandi numeri è un risultato generale, che può essere applicato in molteplici situazioni. Ad esempio, ricordando la definizione di varianza campionaria \[ \bar{\sigma}^2_n = \frac{1}{n} \sum_{i=1}^n (X_i - \bar{X}_n)^2,\] è possibile usare la legge dei grandi numeri per dedurre la convergenza in media quadratica e in probabilità di \[ \lim_{n \to \infty} \bar{\sigma}^2_n = \sigma^2,\] supponendo ad esempio che le \((X_i)_i\) siano tutte indipendenti, tutte con le stessa legge e dotate di momento quarto finito, quindi in particolare i momenti sono tutti uguali: \[ m_1 = \E{X_i}, \quad m_2 = \E{X_i^2}.\] Infatti, basta riscrivere la varianza campionaria nel modo alternativo \[ \bar \sigma_n^2 = \frac 1 n \sum_{i=1}^n X_i^2 - (\bar{X_n})^2 = \overline{ (X^2)}_n - (\bar{X_n})^2,\] e notare che sotto l’ipotesi di momento quarto finito e indipendenza, non solo \[\lim_{n \to \infty }\bar{X_n} = m_1,\] ma anche \[ \lim_{n \to \infty} \overline{ (X^2)}_n = m_2.\] Di conseguenza, usando la definizione di convergenza, si può argomentare che \[ \lim_{n \to \infty }\bar\sigma_n^2 = \lim_{n \to \infty} \sqa{ \overline{ (X^2)}_n - (\bar{X_n})^2} = m_2 - m_1^2 = \sigma^2.\]