3.3 Composizione tramite funzione

Sia data $X$ una variabile aleatoria a valori in $E$ e sia $g: E \to F$ una funzione. Per definire la variabile composta $g(X)$, è sufficiente descrivere il suo sistema di alternative associato. Per ogni $z \in F$, se vale $g(X) = z$ significa che $X$ assume uno dei possibili valori $x\in E$ tali che $g(x) = z$. Tale inseme di valori $x$ è detto immagine inversa di $z$ tramite $g$, e si indica $g^{-1}(z)$. Se $g$ è invertibile, $g^{-1}(z)$ consiste di un solo valore, ma in generale individua un sottoinsieme (possibilmente anche vuoto) di $E$.

Definizione 3.5 (variabile aleatoria composta) Se $X$ è una variabile aleatoria a valori in $E$ e $g: E \to F$ è una funzione, si una definisce la variabile aleatoria $g(X)$ a valori in $F$ tramite il sistema di alternative, per $z \in F$, \[ \cur{ g(X) = z} = \cur{X \in g^{-1}(z)}.\]

Per verificare che la famiglia così definita sia un sistema di alternative, basta notare che, al variare di $z \in F$, gli insiemi $g^{-1}(z)$ sono una partizione di $E$: ogni possibile valore $x \in E$ appartiene ad uno e uno solo di tali insiemi, pertanto una e una sola tra le affermazioni $\cur{g(X) = z}$ è vera.

Esempio 3.9 Si lancia un dado a sei facce e si pone $X \in E= \cur{1,2,3,4,5,6}$ l’esito del lancio. Posta $g(x)$ la funzione che vale $1$ se $x$ è dispari, $0$ altrimenti, la variabile $g(X)$ a valori in $F=\cur{0,1}$ indica se l’esito del lancio è dispari. In particolare, prima di sapere l’esito del lancio, ha densità discreta uniforme (oppure Bernoulli di parametro $1/2$), perché \[ \cur{ g(X) =1 } = \cur{ X \in g^{-1}(1)} = \cur{ X = 1 \text{oppure} X=3 \text{oppure} X =5}.\] che ha probabilità $1/2$.

L’esempio sopra ci indica un metodo per calcolare la densità discreta di $g(X)$ (qualora abbia senso farlo, ossia l’insieme dei possibili valori di $g(X)$ è finito o infinito ma discreto). Per ogni $z \in F$, si tratta di calcolare \[ \cur{ g(X) = z } = \cur{X \in g^{-1}(z)}.\] A questo punto, se anche $X$ ha densità discreta, basterà sommare sui valori $x \in g^{-1}(z)$, ossia gli $x \in E$ tali che $g(x) = z$ e si ottiene \[ P( g(X) = z |I) = \sum_{x \in g^{-1}(z)} P(X = x | I). \] Altrimenti, nel caso in cui $X$ abbia densità continua, bisogna sostituire la somma con un integrale (o più in generale con una somma di integrali) sull’insieme $g^{-1}(z)$: \[ P(g(X) = z | I) = \int_{g^{-1}(z)} p(X=x|I) dx.\]

Esempio 3.10 Sia $X$ una variabile continua con densità esponenziale di parametro $\lambda=1$ (rispetto ad una informazione $I$). Si consideri la funzione $g(x)$ che vale $1$ se $X$ è minore di $1$ oppure maggiore di $2$, e si ponga $g(x)=0$ altrimenti. Allora la variabile $g(X)$ assume solo i valori $\cur{0,1}$, e quindi è discreta. Per calcolarne la densità discreta basta determinare \[\begin{split} P( g(X) = 1 | I) &= P( X \in g^{-1}(1)|I) = P(X<1 \text{ oppure } X >2 |I) \\ & = P(X<1|I) + P(X>2|I) =\int_0^1 e^{-x}dx + \int_2^\infty e^{-x }dx \\ & = 1-e^{-1} + e^{-2} \end{split} \]

# plottiamo la densità esponenziale

deltax <- 0.01
x <- seq(0, 5, by = deltax)
dens <- dexp(x)


plot(x, dens, type = "l", xlab = "valori",
  ylab = "densità continua", lwd = 3,
  col = miei_colori[2])

# evidenziamo l'area sotto il grafico
# nell'intervallo (0, 1) e
# nell'intervallo (2, 5) (per ragioni
# di spazio non possiamo andare oltre)

polygon(c(x[x < 1], x[x == 1], x[1]), c(dens[x <
  1], 0, 0), col = miei_colori[1])

polygon(c(x[x >= 2], x[x == 5], x[x == 2]),
  c(dens[x >= 2], 0, 0), col = miei_colori[1])

$La probabilità di $\cur{ g(X) =1 }$ corrisponde all'area del sottografico della densità esponeziale negli intervalli $g^{-1}(1) = (0,1) \cup (2, \infty)$.$

Figura 3.6: La probabilità di $\cur{ g(X) =1 }$ corrisponde all’area del sottografico della densità esponeziale negli intervalli $g^{-1}(1) = (0,1) \cup (2, \infty)$.

# calcoliamo infine l'area
# numericamente


((sum(dens[x < 1]) + sum(dens[x > 2])) *
  deltax)

## [1] 0.7632419

# e la confrontiamola con quella
# teorica

(prob_teorica <- 1 - exp(-1) + exp(-2))

## [1] 0.7674558

Quando accade invece che, se $X$ ha densità continua, anche $g(X)$ ammette densità continua? Sicuramente $g$ deve assumere un infinità continua di valori, tuttavia non è sufficiente, come mostra il seguente esempio.

Esempio 3.11 Sia $X$ una varibile continua uniforme nell’intervallo $[-1,1]$ e sia $g: \R \to \R$ definita a tratti \[ g(x) = \begin{cases} x & \text{se $x \ge 0$,}\\ 0 & text{altrimenti.}\end{cases}\]

x <- seq(-2, 2)

plot(NULL, xlim = c(-2, 2), ylim = c(0, 2),
  xlab = "valori", ylab = "densità e g(x)")

# plottiamo la densità uniforme

lines(x = c(-2, -1), y = c(0, 0), lwd = 3,
  col = miei_colori[2])
lines(x = c(-1, 1), y = c(1/2, 1/2), lwd = 3,
  col = miei_colori[2])
lines(x = c(1, 2), y = c(0, 0), lwd = 3,
  col = miei_colori[2])

lines(x = c(1, 1), y = c(0, 1/2), type = "l",
  lty = "dashed", col = miei_colori[2])
lines(x = c(-1, -1), y = c(0, 1/2), type = "l",
  lty = "dashed", col = miei_colori[2])


# evidenziamo l'area che viene mandata
# da g nel valore 0

polygon(c(0, 0, -1, -1), c(0, 0.5, 0.5, 0),
  col = miei_colori[1])

# plottiamo il grafico di g(x)

lines(x = c(-2, 0), y = c(0, 0), col = miei_colori[3],
  lwd = 3)
lines(x = c(0, 2), y = c(0, 2), col = miei_colori[3],
  lwd = 3)

Figura 3.7: grafico della densità di $X$ e della funzione $g(x)$, la probabilità corrispondente all’area in rosso viene assegnata al valore $0$ da $g$

Allora $g(X)$ non può essere una variabile continua, perché $g(X) = 0$ se e solo se $X \in [-1,0]$ che ha probabilità $1/2$.

Riflettendo su questo esempio, si capisce che il problema sono le regioni in cui il grafico di $g$ è piatto, ossia $g'(x)=0$. In effetti questo è l’unico ostacolo (assumendo che $g$ sia abbastanza regolare) a dedurre che $g(X)$ ammette densità. Vale infatti la seguente formula di cambio di variabile.

Teorema 3.1 (cambio di variabile) Sia $X$ una variabile aleatoria a valori in $\R$, con densità continua $p(X=x|I)$. Sia $g: \R \to \R$ una funzione invertibile, derivabile, con derivata continua e mai nulla $g'(x)\neq 0$. Allora $g(X)$ ammmette densità continua e vale \[ p(g(X) = z | I) = p( X = g^{-1}(z) |I) \cdot\frac{1}{|g'(g^{-1}(z))|} \]

Osserviamo che il primo dei due termini a destra è piuttosto intuitivo: si valuta la densità nell’unico punto $x = g^{-1}(z)$ che viene mandato da $g$ in $z$. Il secondo termine invece si spiega ricordando che la densità continua ha l’unità di misura [probabilità]/[lunghezza] e quindi ad esempio se $X$ è espressa in metri e $g$ è un cambio di unità di misura (ad esempio da metri a kilometri), $g' = dg/dx$ ha l’unità di misura [Km]/[m] e quindi la densità di $g(X)$ ha l’unità di misura corretta. Inoltre osserviamo che essendo $g'$ a denominatore ritroviamo esattamente il fatto che le regioni “piatte” o quasi piatte del grafico di $g$ (ossia con $g'$ piccola) danno un contributo grande alla densità di $g(X)$, e nel limite $g'=0$ si esce dal caso di densità continua. Notiamo infine che il valore assoluto $|g'|$ evita (giustamente) densità negative.

Proof. La dimostrazione della formula sopra segue direttamente da un cambio di variabile nell’integrale. Supponiamo che $g'(x)>0$ per ogni $x \in \R$, ossia che $g$ sia crescente (l’altro caso è analogo). Dato un intervallo $[a,b]$, si ha (sottointendiamo $I$) \[\begin{split} P( a < g(X) < b ) &= P( g^{-1}(a) < X < g^{-1}(b))\\ & = \int_{g^{-1}(a)}^{g^{-1}(b)} p(X = x) dx \\ & \text{[posto $g(x) = z$]} \int_a^b p(X = g^{-1}(z)) (g^{-1})'(z) d z \end{split}\] e la conclusione regue ricordando la formula per la derivata della funzione inversa: \[ (g^{-1})'(z) = \frac{1}{|g'(g^{-1}(z))|}.\]

Esempio 3.12 Consideriamo una variabile $X$ con densità esponenziale di parametro $\lambda$ e sia $g(x) = a x$, dove $a>0$ è un altro parametro (noto). Allora si trova $g'(x) = a$, $g^{-1}(z) = z/a$ e quindi la densità di $g(X) = aX$ è \[ p( aX = z ) = p(X = z/a) \frac{1}{a} = \begin{cases} \frac{\lambda}{a} e^{-(\lambda/a) z} & \text{per $z \ge 0$,}\\ 0 & \text{altrimenti.} \end{cases}\] e riconosciamo quindi una densità esponenziale di parametro modificato $\lambda/a$.

Più in generale, se $X$ assume con probabilità $1$ valori in un intervallo $E \subseteq \R$ e $g:E \to \R$ è tale che si può decomporre $E$ in una unione finita di intervalli a due a due disgiunti in cui, all’interno di ciascun intervallo, $g$ sia invertibile, derivabile con derivata continua e mai nulla $g'(x) \neq 0$. Allora $g(X)$ ammette densità continua \[ p(g(X) = z | I ) = \sum_{ x \in g^{-1}(z)} p( X =x | I ) \cdot \frac{1}{|g'(x)|}.\] Notiamo che questa formula vale in tutti i valori $z \in g(E)$ eccetto al più quelli che sono immagine tramite $g$ di un estremo degli intervalli (dove la derivata $g'$ potrebbe essere nulla oppure proprio non esistere).

Esempio 3.13 Consideriamo una variabile $X$ con densità esponenziale di parametro $1$ e sia $g(x) =\log(x)$, che non è definita su tutto $\R$, ma essendo $P(X \le 0) = 0$, possiamo ridurci a $E = (0, \infty)$, dove risulta invertibile con derivata $g^{-1}(z)= e^z$ e derivabile con derivata $\log'(x) = 1/x$ non nulla. Troviamo quindi la densità di $g(X) = \log(X)$, per $z \in \R$, \[ p( \log(X) = z ) = p( x = e^z) e^z = e^{-e^z + z}.\]

Esempio 3.14 Sia $X$ una variabile continua con densità uniforme sull’intervallo $[-1,1]$ e sia $g(x)= x^2$. In questo caso possiamo decomporre l’intervallo $E = [-1,1]$ in nei due intervalli $[-1,0]$ e $(0,1]$ disgiunti, in cui $g(x)$ è invertibile e si trova, per $z \in [0,1]$, $g^{-1}(z)=\pm\sqrt{z}$ con il segno determinato dall’intervallo che consideriamo. La funzione $g$ è derivabile ovunque, ma la derivata $g’(x)= 2x $ è nulla in $0$. Dovremo quindi escludere $g(0) = 0$ dalla formula per la densità (altrimenti si trova un contributo che possiamo intepretare come $1/0 = \infty$). Applicando quindi la formula generalizzata, vale per $z \in g(E) = [0,1]$, $z \neq g(0) = 0$, \[ p( X^2 = z) = p( X = -\sqrt{z}) \cdot \frac{1}{2 \sqrt{z}}+ p( X = \sqrt{z}) \cdot \frac{1}{2 \sqrt{z}} = \frac{1}{2 \sqrt{z}},\] mentre in tutti gli altri $z$ si ha $p(X^2 = z) = 0$.

Si può sempre controllare (è bene farlo in casi complicati come questo) che \[\int_{-\infty}^\infty p(g(X)= z) d z = 1,\] che in questo caso diventa l’identità \[ \int_0^1 \frac{1}{2 \sqrt{z}} d z = 1.\]

Questa formula permette di determinare la densità di $g(X)$ nel caso di variabili a valori in $\R$, ma esistono formule analoghe nel caso vettoriale, per funzioni $g:\R^d \to \R^k$ e $k \le d$. Non faremo uso negli esercizi di queste formule e menzioniamo solamente il caso speciale di $k=d$, analogo al teorema visto sopra nel caso $d=1$. Ricordiamo che una funzione $g = (g_1, g_2,\ldots, g_d)= \R^d \to \R^d$ è derivabile se ammette in ogni punto un’approssimazione lineare (al primo ordine) tramite la matrice $d\times d$, detta Jacobiana, delle derivate parziali di $g$, \[ Dg(x) = \bra{\frac{\partial g_i}{\partial x_j}(x)}_{i,j=1, \ldots, d}.\]

Teorema 3.2 (cambio di variabile, caso vettoriale) Sia $X$ una variabile aleatoria vettoriale, a valori in $\R^d$, con densità continua $p(X=x|I)$. Sia $g: \R^d \to \R^d$ una funzione invertibile, derivabile con derivata continua e invertibile in ogni punto, ossia \[ \det \bra{ \bra{\frac {\partial g_j(x)}{\partial x_i} }_{i,j=1, \ldots, d}} \neq 0, \quad \text{per ogni $x \in \R^d$.}\] Allora $g(X)$ ammmette densità continua e vale \[ p(g(X) = z | I) = p( X = g^{-1}(z) |I) \cdot\frac{1}{|\det(Dg)(g^{-1}(z))|} \]

Notiamo ancora che le “unità di misura” sono rispettate essendo $\det(Dg)$ prodotto di $d$ termini del tipo $dg_j/dx_i$.

Esempio 3.15 Sia $g(x ) = Ax +b$ una trasformazione affine, ossia $A \in \R^{d\times d}$ e $b \in \R^d$ fissati (e noti, osserviamo in particolare che $A$ indica una matrice, non una variabile aleatoria). Allora si sa che $Dg(x)= A$, e quindi se $A$ è invertibile tutte le condizioni del teorema sono soddisfatte, perciò data $X$ a valori in $\R^d$ con densità continua, anche $g(X) = AX+b$ ammette densità data da \[ p( AX +b = z ) = p( X = A^{-1}(z-b)) \frac{1}{|\det(A)|}.\] Per fare un esempio più concreto, se la densità di $X$ è una funzione radiale, ossia della distanza dall’origine $p(X = x) = f(|x|)$, allora la formula sopra mostra che la densità non cambia se si applicano rotazioni (o più in generale una trasformazione ortogonale, $A^T A = Id$).

3.3.1 Esercizi

Esercizio 3.5 Sia $X$ una variabile con densità discreta binomiale di parametri $(30, 1/3)$. Calcolare analiticamente e poi numericamente (usando opportuni comandi R) la densità discreta della variabile $Y = (X-10)^2$.

Esercizio 3.6 Sia $X$ una variabile con densità continua uniforme su $[0,1]$. Determinare la densità (continua o discreta?) di $aX+b$, dove $a$, $b \in \R$ sono parametri (da ritenere noti).

Esercizio 3.7 Sia $X$ una variabile con densità continua esponenziale di parametro $\lambda= 3$. Determinare la densità di $X^2$ e più in generale di $X^p$, dove $p \neq 0$ è un parametro (da ritenere noto).