4.5 Covarianza
Abbiamo visto che l’estensione del valor medio al caso di una variabile vettoriale \(X \in \R^d\) è piuttosto immediata: basta semplicemente calcolare il valor medio di ciascuna componente. Volendo trovare un’analoga estensione per la varianza e la deviazione standard, ci si rende conto che l’idea ingenua di considerare le varianze delle componenti non è sufficiente a descrivere bene la “dispersione” della legge di un vettore.
Esempio 4.15 Si considerino due variabili \(X\), \(Y\) uniformi discrete sui valori \(\cur{-3,-2,-1,0,1,2,3}\) (in modo che siano già centrate). La deviazione standard risulta \(\sigma_X =\sigma_Y = 2\).
<- -3:3
valori_X <- 1/7
densita_X
<- sqrt(sum(valori_X^2 * densita_X))) (sd_X
## [1] 2
Tuttavia, non abbiamo alcuna indicazione circa la “dispersione” nel piano della variabile congiunta \((X,Y)\). Ad esempio, potrebbe essere noto che \(X=Y\), e quindi la densità discreta della variabile congiunta è “concentrata” sulla diagonale principale; oppure, rispetto ad un’altra informazione \(I\), le due variabili potrebbero essere indipendenti, e quindi la densità è “diffusa” su tutte le possibili coppie di valori.
<- -3:3
valori_X <- -3:3
valori_Y
par(mfrow = c(1, 2))
plot(valori_X, valori_Y, pch = 16, col = miei_colori[2],
xlab = "valori di X", ylab = "valori di Y")
<- c()
valori_indipendenti_X <- c()
valori_indipendenti_Y
for (i in valori_X) {
for (j in valori_Y) {
<- c(valori_indipendenti_X,
valori_indipendenti_X
i)<- c(valori_indipendenti_Y,
valori_indipendenti_Y
j)
}
}
plot(valori_indipendenti_X, valori_indipendenti_Y,
pch = 16, col = miei_colori[1], xlab = "valori di X",
ylab = "valori di Y")
Questo motiva l’introduzione di un indicatore “congiunto” tra le possibil coppie di componenti, noto come covarianza (in inglese covariance), così definito.
Definizione 4.5 (Covarianza) Date due variabili aleatorie reali \(X\), \(Y\), si definisce la covarianza tra esse come la quantità reale \[ \Cov{X,Y} = \E {(X-\E{X})(Y-\E{Y})}.\]
A volte si indica anche \(\Cov{X,Y} = K_{XY}\). La covarianza è una estensione della varianza, come mostra la seguente proposizione. Inoltre è una funzione bilineare (ossia separatamente lineare) dei suoi due argomenti \(X\), \(Y\).
Proposizione 4.7 Date variabili aleatorie reali \(X\), \(Y\), \(Z\) e una costante \(a>0\), valgono le seguenti proprietà: 1. \(\Cov{X, X} = \Var{X}\) 2. (simmetria) \(\Cov{X,Y} = \Cov{Y,X}\) 3. (bilinearità) \(\Cov{X+Z, Y} = \Cov{X,Y} + \Cov{Z, Y}\) e similmente \(\Cov{X, Y+Z} = \Cov{X,Y} + \Cov{X,Z}\). Inoltre \(\Cov{aX, Y} = a \Cov{X,Y} = \Cov{X, aY}\). 4. (varianza della somma) \(\Var{X+Y} = \Var{X}+ \Var{Y}+ 2\Cov{X,Y}\). 5. (formula alternativa) \(\Cov{X,Y} = \E{XY} - \E{X}\E{Y}\).
Proof. La dimostrazione è piuttosto immediata (in particolare la formula alternativa segue analogamente al caso della varianza).
Una proprietà importantissima della covarianza è la seguente.
Proposizione 4.8 Se due variabili reali \(X\), \(Y\) sono indipendenti (rispetto ad una informazione \(I\)), allora sono non correlate, ossia \[ \Cov{X,Y } = 0.\] In particolare, \[\Var{X+Y} = \Var{X} +\Var{Y}.\]
Proof. Questo fatto segue dalla formula alternativa per la covarianza \[ \Cov{X,Y} = \E{XY} - \E{X}\E{Y}\] e la proposizione @ref(valor_medio_indipendenti), che garantisce \[ \E{XY} = \E{X}\E{Y}.\]
Esempio 4.16 Riprendendo con l’esempio sopra, notiamo che, se l’informazione nota \(I\) garantisce che \(X=Y\), allora la covarianza tra \(X\) e \(Y\) coincide con la varianza (che era \(2\)). Se invece l’informazione \(I\) implica che \(X\) e \(Y\) siano indipendenti, la covarianza sarà nulla. Ecco quindi che tramite la covarianza possiamo indicare una differenza tra le due leggi congiunte
Più in generale, il segno della covarianza è una quantità piuttosto indicativa. Si dice che \(X\) e \(Y\) sono positivamente correlate se \(\Cov{X,Y} >0\), mentre negativamente correlate se \(\Cov{X,Y}<0\).
Esempio 4.17 Si considerino due variabili \(X \in \cur{0,1}\), indicatrice dell’evento \(A\), \(Y \in \cur{0,1}\) indicatrice dell’evento \(B\). Allora, usando il semplice fatto che il valor medio di una indicatrice è la probabilità dell’evento che indica, e che \(XY \in \cur{0,1}\) è indicatrice di “\(A\) e \(B\)”, segue che \[ \Cov{X,Y} = \E{XY} - \E{X}\E{Y} = P(A \text{ e } B) - P(A) P(B).\] In particolare, avremo che \(X\) e \(Y\) sono positivamente correlate se e solo se \[ P(A \text{ e } B) - P(A) P(B) >0, \quad \text{ossia} \quad \frac{ P(A \text{ e } B) }{P(A) P(B) } >1,\] Notiamo che sono negativamente correate se e solo se il rapporto di sopra è minore di \(1\), mentre sono non correlate se e solo se il rapporto vale \(1\) (e quindi sono indipendenti).
L’esempio sopra è molto speciale: in generale non è possibile dedurre che \(X\), \(Y\) siano indipendenti dal fatto che \(\Cov{X,Y}=0\).
Come intepretare il segno della covarianza nel caso di variabili generali? Vedremo una spiegazione precisa trattando la regressione lineare nella Sezione 5.7. Non è una grave approssimazione tuttavia rifarsi all’esempio precedente. In altre parole, \(X\) e \(Y\) sono positivamente correlate se, sapendo che \(X>\E{X}\) allora è più probabile che sia anche \(Y>\E{Y}\) (e similmente, sapendo \(X\le \E{X}\), è più probabile che sia \(Y \le \E{Y}\)). Graficamente, stiamo dicendo che la densità congiunta tra \((X,Y)\) è circa concentrata nel primo e terzo quadrante cartesiano, avendo posto l’origine nel vettore dei valor medi. Viceversa, la correlazione negativa indica che la densità congiunta è concentrata nel secondo e quarto quadrante. Torneremo su questo fatto trattando le variabili gaussiane e la regressione lineare.
Avendo definito la covarianza tra coppie di variabili aleatorie reali, dato un vettore aleatorio \(X \in \R^d\) possiamo introdurre una matrice quadrata che collezioni tutte le covarianze tra le possibli coppie di componenti (e sulla diagonale le varianze).
Definizione 4.6 (Matrice delle covarianze) Dato un vettore aleatorio \(X = (X_1, \ldots, X_d) \in \R^d\), si definisce la matrice delle covarianze di \(X\) la matrice di numeri reali \(\Sigma_X \in \R^{d\times d}\) data da \[ (\Sigma_X)_{i,j} = \Cov{X_i, X_j} = \E{X_iX_j} - \E{X_i}\E{X_j} \quad \text{per $i$, $j \in \cur{1, \ldots, d}$.}\]
Vi sono molteplici notazioni alternative per la matrice delle covarianze, ad esempio \(\Var{X}\), \(K_{XX}\) o \(Q_X\). La matrice delle covarianze è simmetrica \(\Sigma_X = \Sigma_X^T\), dove \(T\) indica l’operazione di trasposizione e analogamente al vettore delle medie, ha delle buone proprietà di trasformazione tramite funzioni lineari affini.
Proposizione 4.9 Sia \(X \in \R^d\) una variabile aleatoria e sia \[ Y = AX+b \quad \text{ossia} \quad Y_i = \sum_{j=1}^d A_{ij} X_j + b_i,\] dove \(A \in \R^{k \times d}\) è una matrice e \(b \in \R^k\) è un vettore (costanti rispetto all’informazione nota \(I\)), vale \[ \Sigma_{AX+b} = A \Sigma_X A^T.\] In particolare, se \(k=1\) e \(A = v^T\), con \(v \in \R^{d}\), si ottiene che \[ \Var{v \cdot X}= \Sigma_{v\cdot X} = v^T \Sigma_X v,\] ossia \(\Sigma_X\) è (semi-)definita positiva.
Proof. Si calcola, usando la bilinearità della covarianza, \[ \begin{split} \Cov{Y_i, Y_{i'} } & = \Cov{ \sum_{j=1}^d A_{ij} X_j, \sum_{j'=1}^d A_{i'j'} X_{j'}}\\ & = \sum_{j,j' = 1}^d A_{ij}\Cov{X_j, X_{j'}} A_{i' j'} \end{split}\] che coincide con \((A \Sigma_X A^T)_{ii'}\).
Da questo seguono due conseguenze importanti. Nel caso \(d=2\), scrivendo \((X,Y)\) per la variabile congiunta di due variabili reali \(X\), \(Y\), la matrice delle covarianze è esplicitamente \[ \Sigma_{(X,Y)} = \bra{ \begin{array}{cc}\Var{X} & \Cov{X,Y}\\ \Cov{X,Y} & \Var{Y} \end{array}}.\]
Essendo semidefinita positiva, il suo determinante è positivo (o nullo): \[\det(\Sigma_{(X,Y)}) = \Var{X}\Var{Y} - (\Cov{X,Y})^2 \ge 0,\] ossia, dopo alcune operazioni elementari, si ha che \[ \rho_{XY} := \frac{ \Cov{X,Y}}{\sigma_X \sigma_Y} \in [-1,1].\] Tale quantitàla quantità, detta coefficiente di correlazione (o indice di correlazione di Pearson), è una covarianza normalizzata alle due deviazione standard (di \(X\) e di \(Y\)) e ha il vantaggio di indicare sia il segno della covarianza (e quindi positiva o negativa correlazione), sia di quantificare una eventuale dipendenza lineare tra \(X\) e \(Y\). Infatti si potrebbe dimostrare che \(\rho_{XY} \in \cur{-1,1}\) se e solo se esistono costanti \(a, b \in \R\) tale che \(Y = aX+b\).
La seconda conseguenza è una applicazione del teorema spettrale per matrici reali simmetriche (caso speciale delle hermitiane complesse), che permette di decomporre \[ \Sigma_X = U^T D U,\] per una opportuna matrice ortogonale \(U \in \R^{d\times d}\), ossia tale che \(U^T U = Id\) e una matrice diagonale \(D\). La matrice diagonale contiene tutti gli autovalori di \(\Sigma_X\) (in particolare sono positivi o nulli). Se consideriamo la trasformazione \(UX\), che corrisponde ad cambio di coordinate dalla base canonica di \(\R^d\) alla base ortonormale data dalle colonne di \(U\), la covarianza si trasforma di conseguenza come \[ \Sigma_{UX} = U \Sigma_X U^T = D,\] ossia le componenti di \(UX\) sono a due a due non correlate. Questo può essere visto come un primo passo per una “standardizzazione” di un vettore aleatorio. Se \(D\) è invertibile (ossia gli autovalori sono tutti positiv), si può in effetti definire \(\hat{X} = \sqrt{D}^{-1} U(X-\E{X})\), dove \(\sqrt{D}\) è la matrice diagonale con entrate date dalla radice quadrata di quelle di \(D\). Usando le proprietà del vettore delle medie e della varianza, si ha \[ \E{\hat{X} } = 0 \in \R^d \quad \text{e} \quad \Sigma_{ \hat{X} } = Id.\]
4.5.1 Esercizi
Esercizio 4.13 Sia \(X\) uniforme continua su \([0, 2 \pi]\) e siano \(U = \cos(X)\), \(V = \sin(X)\). Calcolare \(\Cov(U,V)\).
Esercizio 4.14 Sia \(X\), una variabile esponenziale di parametro \(1\) e sia \(Y = X^2\) Dire se \(X\), \(Y\) sono positivamente correlate.