4.4 Varianza e deviazione standard

La moda, la mediana ed infine il valore medio sono tutti indicatori puntuali, ossia riassumono la legge di una variabile con un singolo valore (nel caso del valor medio, neppure necessariamente tra quelli assunti dalla variabile).

Per descrivere in modo più efficace una variabile \(X\), è buona norma affiancare un indicatore della sua “dispersione” ossia di quanto “concentrata” essa sia vicino ad un indicatore puntale. Nel caso di variabili reali, uno di questi indicatori, tra i più utilizzati, è la deviazione standard (anche detta scarto quadratico medio, ma in inglese standard deviation), definita come la radice quadrata (positiva) di un’altra quantità, la varianza (in inglese variance).

Definizione 4.3 (varianza e deviazione standard) Sia \(X \in \R\) una variabile aleatoria con valor medio \(\E{X}\). Si definisce la varianza di \(X\) la seguente quantità non negativa: \[ \Var{X} = \E{ (X- \E{X})^2 },\] mentre la deviazione standard di \(X\) è \[ \sigma_X = \sqrt{ \Var{X}}\]

Notiamo che l’unità di misura di \(\sigma_X\) è la stessa di \(X\), mentre \(\Var{X}\) ha come unità di misura il quadrato dell’unità di \(X\).

La definizione sopra va intepretata nel seguente modo: dopo aver calcolato il valor medio di \(X\), possiamo considerare lo scarto (ossia la differenza tra \(X\) e il valor medio) \[ X - \E{X},\] che indica appunto quanto \(X\) si discosta dal valor medio. L’operazione di sottrarre il valor medio è detta anche centratura della variabile \(X\), e produce una quantità è ancora una variabile aleatoria, quindi non è l’indicatore che cerchiamo, e ha inoltre il “difetto” di avere segno variabile (si noti infatti che il suo valor medio è nullo, ossia la variabile è appunto “centrata” intorno al suo valor medio). Tuttavia, prendendone il quadrato, ossia \[ (X- \E{X})^2, \] si ottiene una quantità sempre positiva (o nulla), che tuttavia è ancora aleatoria. Per ottenere l’indicatore cercato, basta allora prenderne il valor medio ottenendo quindi la definizione data sopra.

Remark. Notiamo che la scelta di passare al quadrato è qui solo per avere una quantità positiva. Altre possibilità si possono considerare, ad esempio \(|X-\E{X}|\) che darebbe poi lo scarto medio assoluto. Il vantaggio di utilizzare il quadrato sarà evidente dalle regole di calcolo della varianza.

Per calcolare \(\Var{X}\), essendo comunque un particolare valor medio, possiamo appoggiarci alle regole di calcolo viste nella sezione precedente. In particolare, possiamo intepretare \((X-\E{X})^2\) come una funzione \(g(X)\) (ricordando che \(\E{X}\) è una costante, tipicamente già calcolata prima di calcolare la varianza) e quindi conoscendo la densità (discreta o continua) di \(X\), si trova \[ \Var{X} = \begin{cases} \sum_{x \in \R} (x-\E{X})^2 P(X=x) & \text{se $X$ ha densità discreta}\\ \int_{-\infty}^\infty (x- \E{X})^2 p(X=x) d x & \text{ se $X$ ha densità continua.}\end{cases}\]

Esempio 4.12 Sia \(X \in \cur{1,2,3,4,5,6}\) una variabile con densità uniforme discreta, che rappresenta l’esito del lancio di un dado. Avendo già calcolato che \(\E{X}= 3.5\), la varianza di \(X\) è data dall’espressione \[ \Var{X} = \sum_{k=1}^6 (X-3.5)^2 \frac{1}6.\] che possiamo anche calcolare tramite il seguente codice R.

valori_X <- 1:6
densita_X <- 1/6
valor_medio_X <- sum(valori_X)/6

(varianza_X <- sum((valori_X - valor_medio_X)^2)/6)
## [1] 2.916667

Esempio 4.13 Sia \(X\) una variabile aleatoria con densità continua uniforme su \([0,1]\). Ricordando che \(\E{X}=1/2\), la varianza di \(X\) si calcola quindi \[ \int_0^1 \bra{ x- \frac 12 }^2 dx = \frac 1 {12}.\] che possiamo anche approssimare numericamente:

deltax <- 0.001
valori_X <- seq(0, 1, by = deltax)

(varianza_X <- sum((valori_X - 1/2)^2) *
  deltax)
## [1] 0.0835835

Ci rendiamo conto dagli esempi sopra che la definizione della varianza è intuitiva ma poco comoda per fare i calcoli. Negli esercizi è più utile la seguente espressione alternativa.

Proposizione 4.5 (espressione alternativa per la varianza) Vale l’indentità \[ \Var{X} = \E{X^2} - (\E{X})^2.\]

Proof. Si tratta di sviluppare il quadrato \[ (X-\E{X})^2 = X^2 -2 X \E{X} + (\E{X})^2,\] e usare la linearità del valor medio: \[ \E{ (X-\E{X})^2} = \E{X^2} - 2 \E{X \E{X}} + \E{(\E{X})^2},\] notando infine che, siccome \(\E{X}\) è un numero (una costante, nota l’informazione \(I\)), allora \[ \E{X\E{X}} = (\E{X})^2 \quad \text{e pure} \quad \E{(\E{X})^2} = (\E{X})^2,\] da cui segue l’identità della tesi.

Esempio 4.14 Per calcolare la varianza di una variabile \(X\) con densità esponenziale di parametro \(1\), calcoliamo separatamente, integrando per parti \[ \E{X} = \int_0^\infty x e^{-x} d x = (-xe^{-x})|_0^\infty + \int_0^\infty e^{-x} d x = 1,\] \[ \E{X^2} = \int_0^\infty x^2 e^{-x} d x = (-x^2e^{-x})|_0^\infty + \int_0^\infty 2 x e^{-x} d x = 2,\] da cui \[ \Var{X} = 2 - (1)^2 = 2-1 = 1.\]

Concludiamo questa sezione con una diseguaglianza che segue dalla diseguaglianza di Markov, ma è attribuita ad un altro matematico, Chebyshev.

Proposizione 4.6 Sia \(X \in \R\) una variabile aleatoria. Allora per ogni costante \(k>0\), si ha \[ P( |X - \E{X}| > k) \le \frac{ \Var{X}}{k^2},\] o, equivalentemente, per ogni \(k \ge 1\), \[ P( \E{X}- k \sigma_X \le X \le \E{X}+ k \sigma_X ) \ge 1-\frac{1}{k^2}.\]

Questa diseguaglianza, soprattutto nella seconda formulazione, permette di ottenere un intervallo di valori centrato intorno al valor medio \(\E{X}\) per cui si sa che la probabilità che \(X\) assuma un valore in tale intervallo è abbastanza alta. Ad esempio, ponendo \(k=\sqrt{2}\), si trova che con probabilità almeno \(1/2\), \(X\) assume valori nell’intervallo \[ ( \E{X}- \sqrt{2} \sigma_X, \E{X}+ \sqrt{2} \sigma_X).\] Ovviamente, maggiore sarà \(k\), maggiore risulta la probabilità, ma anche l’intervallo risulterà più ampio (e quindi il risultato sarà meno utile).

Proof. La dimostrazione segue direttamente dalla diseguaglianza di Markov applicata alla variabile (positiva) \((X-\E{X})^2\), notando che \[ P( |X- \E{X}| > c ) = P( (X- \E{X})^2 > c^2 ) \le \frac{ \E{(X- \E{X})^2}}{c^2}.\] La formulazione equivalente segue passando al complementare (ossia negando l’affermazione), e ponendo \(c = k \sigma_X\), \[ P( \E{X}- k \sigma_X \le X \le \E{X}+ k \sigma_X) = 1-P( |X- \E{X}| > k\sigma_X ). \]

Una conseguenza importante è che, se \(\sigma_X=0\) (o se \(\Var{X}=0\)) la variabile \(X\) è, con probabilità \(1\), costante ed uguale al suo valor medio (rispetto all’informazione \(I\)).

In virtù della diseguaglianza di Chebyshev, la deviazione standard \(\sigma_X\) acquista il ruolo di “unità di misura” naturale della dispersione di \(X\). Dividere la variabile per \(\sigma_X\) equivale quindi a riportarla ad una unità “standard” che vale \(1\). Questo passaggio è in particolare utile per confrontare diverse variabili tra loro. Diamo quindi la seguente definizione.

Definizione 4.4 Data una variabile aleatoria \(X \in \R\), la sua standardizzazione è la variabile \[ \hat{X} = \frac{ X- \E{X} }{\sigma_X},\] che è centrata \(\E{\hat{X}} = 0\) e ha deviazione standard \(\sigma_{\hat{X}} =1\).

4.4.1 Esercizi

Esercizio 4.10 Calcolare la varianza di una variabile con densità Bernoulli come funzione del parametro \(p \in [0,1]\).

Esercizio 4.11 Calcolare media e varianza di una variabile \(X\) con densità discreta binomiale di parametri \((n,p)\) (suggerimento: scrivere \(X\) come somma di \(n\) Bernoulli indipendenti, ciascuna di parametro \(p\))

Esercizio 4.12 Mostrare che la varianza di una variabile uniforme continua su un intervallo \([a,b] \subseteq \R\) è proporzionale al quadrato della lunghezza dell’intervallo, \((b-a)^2\), e determinare la costante di proporzionalità.