4.3 Valor medio

La mediana e le sue generalizzazioni come i quartili, decili ecc., sono efficaci per sintetizzare le principali caratteristiche della legge di una variabile aleatoria a valori reali. Tuttavia il loro calcolo (teorico) non è molto agevole e pure la generalizzazione al caso di variabili vettoriali non è del tutto evidente. In questa sezione introduciamo invece uno degli indicatori maggiormente usati, il valor medio (anche detta media, valore atteso o speranza matematica, in inglese expectation o expected value) di una variabile aleatoria $X$ a valori in $\R$, rispetto all’informazione $I$. La ragione principale per preferire il valor medio rispetto alla mediana è che esso gode di molteplici proprietà, di cui la principale è la linearità, che ne rendono il calcolo agevole in molte situazioni. Inoltre, si generalizza in modo immediato al caso vettoriale.

Il valor medio di $X$ consiste in una media aritmetica dei possibili valori di $X$, ma ponderata, cioè pesata, tramite la densità (discreta o continua).

Definizione 4.1 Il valor medio di una variabile aleatoria $X$ a valori in $\R$, condizionato ad una informazione nota $I$ rispetto alla quale $X$ ammette densità (discreta o continua) è definito come il numero reale \[ \E{ X | I} = \begin{cases} \sum_{x \in \R} x P(X = x|I ) & \text{se $X$ ha densità discreta,}\\ \int_{-\infty}^\infty x p(X=x|I) d x & \text{se $X$ ha densità continua.}\end{cases}\]

La notazione $\E{X | I}$ ricalca quella di probabilità $P(X=x|I)$, e spesso si evita di specificare l’informazione nota $I$.

Remark. Affinché la serie o l’integrale siano ben definiti, supporremo sempre (tacitamente) che convergano in senso assoluto, ossia \[ \sum_{x \in \R} |x| P(X = x|I ) < \infty \text{ oppure } \int_{-\infty}^\infty |x| p(X=x|I) d x <\infty.\] questo evita opportunamente dei comportamenti “patologici” nei passaggi al limite. Se le serie sopra non convergono, diremo semplicemente che il valor medio non esiste finito (o non è ben definito). Diversamente dalla mediana, che esiste sempre (purché si definisca come $q_X(1/2)$), il valor medio potrebbe non esistere.

La definizione che abbiamo dato di valor medio ricalca quella fisica di centro di massa per una certa distribuzione di massa, solamente che al posto della densità di massa vi è la densità di probabilità. In effetti, per molte applicazioni in fisica il centro di massa fornisce un utile riassunto per una distribuzione di massa.

Il calcolo analitico di un valor medio può essere un esercizio piuttosto complicato. Dal punto di vista numerico invece è immediato (se si dispone della densità o di una sua approssimazione).

Esempio 4.8 Sia $X\in \cur{0,1}$ la variabile indicatrice di un evento $A$, ossia $\cur{X=1} = A$. La legge di $X$ è Bernoulli di parametro $p = P(X=1|I) = P(A|I)$ Allora, usando la definizione nel caso discreto, \[ \E{X|I} = 0\cdot P(X= 0|I) + 1 \cdot P(X=1|I) = P(X=1|I) = P(A|I) = p,\] quindi il valor medio di una (variabile con) densità discreta Bernoulli di parametro $p$ è proprio $p$. Osserviamo che, eccetto i casi limite $p =0$, oppure $p=1$, il valor medio non è uno dei possibili valori di $X$.

Esempio 4.9 Sia $X$ una variabile aleatoria uniforme continua sull’intervallo $(a,b)$. Allora il valor medio di $X$ è \[ \int_a^b x \frac{1}{b-a} dx = \frac{( b^2-a^2)}{2 (b-a)} = \frac{a+b}{2},\] ossia il punto medio dell’intervallo. Notiamo che in questo caso il valor medio è uno dei possibili valori e coincide con la mediana.

Esempio 4.10 Sia $X$ una variabile aleatoria con densità binomiale di parametri $n=10$, $p=1/3$. Per calcolare il valor medio usando la definizione, bisogna sommare \[ \sum_{k=0}^{10} k {10 \choose k} \frac{1}{3^{k}} \bra{\frac{2}{3}}^{10-k}.\] Vedremo più avanti un approccio diverso sfruttando le proprietà di linearità del valor medio. Tuttavia è anche semplice calcolarlo numericamente:

n <- 10
p <- 1/3

valori_X <- 0:n
densita_X <- dbinom(valori_X, n, p)

(valor_medio_X <- sum(valori_X * densita_X))

## [1] 3.333333

Remark. Come anticipato, ci limiteremo al calcolo (esplicito) del valor medio nei casi in cui $X$ ammetta densità discreta o continua. Tuttavia si deve notare che è possibile dare una definizione generale, che non usa la densità. Una possibile è la seguente (va però mostrato che le definizioni coincidano): \[ \E{X |I} = \int_0^\infty P(X>x|I) d x - \int_{-\infty}^0 P(X <x) dx, \] supponendo che entrambi gli integrali convergano.

Veniamo alle proprietà principali del valor medio, riassunte nella seguente proposizione. Accenniamo alle dimostrazioni nei casi semplici di variabili discrete (o continue).

La proprietà fondamentale è l’analoga della formula di disintegrazione per la probabilità, che possiamo scrivere in termini di sistemi di alternative o variabili aleatorie (discrete o continue).

Proposizione 4.1 (formula di disintegrazione per il valor medio) Sia $X$ una variabile aleatoria reale e sia $Y \in E$ una variabile aleatoria. 1. Se $Y$ ha densità discreta, vale \[ \E{X|I}= \sum_{y \in E} \E{X|I, Y=y} P(Y=y|I),\] 2. Se $E = \R^d$ e $Y$ ha densità continua, vale \[ \E{X|I} = \int_{\R^d }\E{X|I, Y=y} p(Y=y|I) dy.\]

Proof. La dimostrazione di questa proprietà è immediata, almeno nel caso discreto, purché si ammetta di poter scambiare le serie (questo passaggio tecnico richiede appunto la convergenza assoluta): omettendo di specificare l’informazione $I$, vale \[ \begin{split} \E{X} & = \sum_{x \in \R} x P(X=x) = \sum_{x \in \R} x \sum_{y\in E} P(X=x|Y=y)P(Y=y)\\ &\sum_{y \in E} \bra{ \sum_{x \in \R} x P(X=x|Y=y)}P(Y=y)\\ & \sum_{y \in E} \E{X | Y=y} P(Y=y). \end{split}\] Similmente nel caso continuo, scambiando gli integrali (nei casi misti invece si scambiano serie e integrali).

Grazie alla formula di disintegrazione, possiamo agevolmente dimostrare ulteriori proprietà.

Proposizione 4.2 Siano $X$, $Y$ variabili aleatorie reali, e siano $a$, $b$, $c \in \R$ (non aleatorie). Allora

(linearità) vale $\E{aX|I} = a \E{X|I}$ e $\E{X+Y|I }= \E{X|I} + \E{Y|I}$.
(monotonia) se $P( X \ge Y|I) = 1$, allora $\E{X|I} \ge \E{Y|I}$. In particolare, se $P(X\in[a,b]|I) = 1$, allora $\E{X|I} \in [a,b]$.
(diseguaglianza di Markov) se $X$ è a valori non-negativi (rispetto all’informazione $I$), allora per ogni $c>0$, \[ P(X > c|I) \le \frac{ \E{X|I}}{c}.\]

Proof. Limitiamoci al caso di variabili con densità discreta.

Per mostrare la linearità, usiamo la disintegrazione con $X+Y$ invece di $X$ e la variabile congiunta $(X,Y)$ invece di $Y$. Troviamo (omettiamo $I$ per brevità) \[ \begin{split} \E{X+Y} & = \sum_{(x,y)\in \R \times \R} \E{X+Y| X=x, Y=y} P(X=x, Y=y) \\ & \sum_{(x,y)\in \R \times \R} (x+y) P(X=x, Y=y)\\ &\sum_{x \in \R } x \sum_{y \in \R } P(X=x, Y=y) + \sum_{y \in \R } y \sum_{x \in \R } P(X=x, Y=y) \\ & \sum_{x \in \R} x P(X=x) + \sum_{y \in \R} y P(Y=y)\end{split}\] dove abbiamo usato la formula per la densità delle marginali a partire dalla densità della variabile congiunta. La dimostrazione di $\E{aX}= a \E{X}$ è analoga (disintegrando rispetto ad $X$).
Avendo dimostrato la linearità del valor medio, possiamo porre $Z = X-Y$ e limitarci a dimostarre $\E{Z} \ge 0$ partendo dall’ipotesi che $P(Z\ge 0) = 1$. Ma allora nella definizione (sempre nel caso discreto) possiamo ridurre la somma agli $z \ge 0$ (visto che $P(Z = z) = 0$ se $z<0$),e quindi \[ \E{Z}= \sum_{z \in \R} z P(Z= z) = \sum_{z \ge 0} z P(Z=z) \ge 0,\] essendo ciascun termine $z P(Z=z)$ positivo.
Consideriamo il sistema di alternative $\cur{X<c}$, $\cur{X \ge c}$ e disintegriamo: \[\begin{split} \E{X} & =\E{X|X<c} P(X<c) + \E{X| X \ge c} P(X \ge c)\\ & \ge \E{X| X \ge } P(X \ge c) \\ & \ge c P(X \ge c),\end{split}\] dove abbiamo prima usato che $\E{X|X<c} \ge 0$, essendo $X \ge 0$ (era rispetto all’informazione $I$, quindi a maggior ragione sapendo pure che $X<c$), e poi che $\E{X| X \ge c} \ge c$. Dividendo per $c$ ambo i membri si ottiene la diseguaglianza di Markov.

Remark. La diseguaglianza di Markov permette di ottenere un collegamento tra valor medio e mediana (più in generale i quantili). Scegliamo infatti $c= q_X(\alpha)$. Allora, supponendo ad esempio che $X$ abbia densità continua, \[P(X \ge q_X(\alpha) )= 1-\CDF_X(q_X(\alpha)) = 1-\alpha,\] quindi la diseguaglianza implica che (se $X\ge 0$,) \[ 1-\alpha \le \frac{ \E{X}}{q_X(\alpha)}.\] Ad esempio, con $\alpha = 1/2$ si trova che \[ q_X(1/2) \le 2 \E{X}.\]

La formula di disintegrazione ha due ulteriori conseguenze che vale la pena di osservare in generale. La prima è una formula per il valor medio di una variabile composta $g(X)$, qualora la densità (discreta o continua) di $X$ (non necessariamente reale) sia nota. Questa formula è molto utile, perché permette di evitare il calcolo della densità di $g(X)$, se si è solamente interessati al suo valor medio.

Proposizione 4.3 (valor medio di una variabile composta) Sia $X \in E$ una variabile aleatoria che ammetta densità discreta oppure continua (in tal caso $E = \R^d$). Allora, se $g: E \to \R$, si ha \[ \E{g(X)|I} = \begin{cases} \sum_{x \in E} g(x) P(X= x|I ) & \text{se $X$ ha densità discreta,}\\ \int_{E} g(x) p(X= x|I) dx & \text{se $X$ ha densità continua.} \end{cases}\]

Proof. La dimostrazione segue dalla formula di disintegrazione. Ad esempio, nel caso discreto, \[ \E{g(X)|I} = \sum_{x \in E} \E{g(X)|I, X=x} P(X=x|I) = \sum_{x \in E} g(x) P(X=x|I),\] perché sapendo $\cur{X=x}$ si ottiene di conseguenza che $g(X)$ è costante e pari a $g(x)$.

Esempio 4.11 Sia $X$ una variabile con densità discreta binomiale di parametri $n=20$, $p=1/4$. Per calcolare il valor medio di $g(X) = X^3$ non è necessario determinare la densità discreta di $g(X)$, ma si può usare la formula del valor medio di una variabile composta: \[ \E{X^3} = \sum_{k=0}^{20} k^3 {20 \choose k} \frac{1}{4^k}\bra{\frac{3}4}^{20-k}.\] Possiamo calcolarlo numericamente (vedremo nella Sezione 4.6 un metodo analitico).

n <- 20
p <- 1/4

valori_X <- 0:n
densita_X <- dbinom(valori_X, n, p)

(valor_medio_X <- sum(valori_X^3 * densita_X))

## [1] 183.125

L’ultima proprietà del valor medio che enunciamo riguarda invece il prodotto di variabili indipendenti.

Proposizione 4.4 Siano $X$, $Y$ variabili aleatorie reali indipendenti (rispetto ad una informazione $I$). Allora \[ \E{ XY |I} = \E{X|I} \E{Y|I}.\]

Proof. Disintegrando rispetto alla variabile $Y$ (che supponiamo discreta, per semplicità), \[ \begin{split} \E{ XY |I} & = \sum_{y \in \R} \E{XY|I, Y=y} P(Y=y|I)\\ & \sum_{y \in \R} \E{X|I, Y=y} y P(Y=y|I)\\ & \E{X|I}\sum_{y \in \R} y P(Y=y|I) = \E{X|I}\E{Y|I},\end{split}\] dove abbiamo usato il fatto che, essendo $X$ indipendente da $Y$, \[ \E{X|I, Y=y} = \sum_{x \in \R} x P(X=x|I, Y=y) = \sum_{x\in \R} x P(X=x|I) = \E{X|I},\] ossia il valor medio di $X$, pur conoscendo esattamente $Y$, non cambia.

Concludiamo con l’estensione del concetto di valor medio al caso di variabili aleatorie vettoriali.

Definizione 4.2 Data una variabile $X = (X_1, \ldots, X_d)$ a valori in $\R^d$, si definisce il vettore dei valor medi (o vettore delle medie) di $X$ come il vettore in $\R^d$, \[ \E{X|I} =( \E{X_1|I}, \ldots, \E{X_d|I}).\]

La linearità del valor medio per variabili reali si traduce nella linearità per variabili vettoriali, ossia \[ \E{X+Y|I} = \E{X|I} + \E{Y|I}\] per variabili aleatorie a valori in $\R^d$. Invece di moltiplicare per costanti (reali), possiamo anche considerare trasformazioni lineari affini del vettore dei valor medi: data una variabile aleatoria $X\in \R^d$ e posta \[ Y = AX+b \quad \text{ossia} \quad Y_i = \sum_{j=1}^d A_{ij} X_j + b_i,\] dove $A \in \R^{k \times d}$ è una matrice e $b \in \R^k$ è un vettore (noti, ossia costanti rispetto all’informazione $I$), vale \[ \E{Y|I} = A \E{X|I}+b, \quad \text{ossia} \quad \E{Y_i|I} = \sum_{j=1}^d A_{ij}\E{X_j|I} + b_i.\]

4.3.1 Esercizi

Esercizio 4.7 Calcolare prima analiticamente e poi confrontare con una approssimazione numerica il valore medio di una variabile $X$ avente densità discreta di Poisson di parametro $\lambda = 4$.

Esercizio 4.8 Sia $X$ una variabile aleatoria reale con densità continua pari $p(X=x) = p(X=-x)$. Supponendo che il valor medio esista finito, determinarlo (suggerimento: non serve fare alcun calcolo!)

Esercizio 4.9 Sia $X$ una variabile aleatoria reale con densità $p(X=x) \propto x^{-4}$, per $x \ge 1$, $p(X=x)=0$ altrimenti. Dire se $\E{X}$ esiste finito.