3.3 Composizione tramite funzione

Sia data \(X\) una variabile aleatoria a valori in \(E\) e sia \(g: E \to F\) una funzione. Per definire la variabile composta \(g(X)\), è sufficiente descrivere il suo sistema di alternative associato. Per ogni \(z \in F\), se vale \(g(X) = z\) significa che \(X\) assume uno dei possibili valori \(x\in E\) tali che \(g(x) = z\). Tale inseme di valori \(x\) è detto immagine inversa di \(z\) tramite \(g\), e si indica \(g^{-1}(z)\). Se \(g\) è invertibile, \(g^{-1}(z)\) consiste di un solo valore, ma in generale individua un sottoinsieme (possibilmente anche vuoto) di \(E\).

Definizione 3.5 (variabile aleatoria composta) Se \(X\) è una variabile aleatoria a valori in \(E\) e \(g: E \to F\) è una funzione, si una definisce la variabile aleatoria \(g(X)\) a valori in \(F\) tramite il sistema di alternative, per \(z \in F\), \[ \cur{ g(X) = z} = \cur{X \in g^{-1}(z)}.\]

Per verificare che la famiglia così definita sia un sistema di alternative, basta notare che, al variare di \(z \in F\), gli insiemi \(g^{-1}(z)\) sono una partizione di \(E\): ogni possibile valore \(x \in E\) appartiene ad uno e uno solo di tali insiemi, pertanto una e una sola tra le affermazioni \(\cur{g(X) = z}\) è vera.

Esempio 3.9 Si lancia un dado a sei facce e si pone \(X \in E= \cur{1,2,3,4,5,6}\) l’esito del lancio. Posta \(g(x)\) la funzione che vale \(1\) se \(x\) è dispari, \(0\) altrimenti, la variabile \(g(X)\) a valori in \(F=\cur{0,1}\) indica se l’esito del lancio è dispari. In particolare, prima di sapere l’esito del lancio, ha densità discreta uniforme (oppure Bernoulli di parametro \(1/2\)), perché \[ \cur{ g(X) =1 } = \cur{ X \in g^{-1}(1)} = \cur{ X = 1 \text{oppure} X=3 \text{oppure} X =5}.\] che ha probabilità \(1/2\).

L’esempio sopra ci indica un metodo per calcolare la densità discreta di \(g(X)\) (qualora abbia senso farlo, ossia l’insieme dei possibili valori di \(g(X)\) è finito o infinito ma discreto). Per ogni \(z \in F\), si tratta di calcolare \[ \cur{ g(X) = z } = \cur{X \in g^{-1}(z)}.\] A questo punto, se anche \(X\) ha densità discreta, basterà sommare sui valori \(x \in g^{-1}(z)\), ossia gli \(x \in E\) tali che \(g(x) = z\) e si ottiene \[ P( g(X) = z |I) = \sum_{x \in g^{-1}(z)} P(X = x | I). \] Altrimenti, nel caso in cui \(X\) abbia densità continua, bisogna sostituire la somma con un integrale (o più in generale con una somma di integrali) sull’insieme \(g^{-1}(z)\): \[ P(g(X) = z | I) = \int_{g^{-1}(z)} p(X=x|I) dx.\]

Esempio 3.10 Sia \(X\) una variabile continua con densità esponenziale di parametro \(\lambda=1\) (rispetto ad una informazione \(I\)). Si consideri la funzione \(g(x)\) che vale \(1\) se \(X\) è minore di \(1\) oppure maggiore di \(2\), e si ponga \(g(x)=0\) altrimenti. Allora la variabile \(g(X)\) assume solo i valori \(\cur{0,1}\), e quindi è discreta. Per calcolarne la densità discreta basta determinare \[\begin{split} P( g(X) = 1 | I) &= P( X \in g^{-1}(1)|I) = P(X<1 \text{ oppure } X >2 |I) \\ & = P(X<1|I) + P(X>2|I) =\int_0^1 e^{-x}dx + \int_2^\infty e^{-x }dx \\ & = 1-e^{-1} + e^{-2} \end{split} \]

# plottiamo la densità esponenziale

deltax <- 0.01
x <- seq(0, 5, by = deltax)
dens <- dexp(x)


plot(x, dens, type = "l", xlab = "valori",
  ylab = "densità continua", lwd = 3,
  col = miei_colori[2])

# evidenziamo l'area sotto il grafico
# nell'intervallo (0, 1) e
# nell'intervallo (2, 5) (per ragioni
# di spazio non possiamo andare oltre)

polygon(c(x[x < 1], x[x == 1], x[1]), c(dens[x <
  1], 0, 0), col = miei_colori[1])

polygon(c(x[x >= 2], x[x == 5], x[x == 2]),
  c(dens[x >= 2], 0, 0), col = miei_colori[1])
La probabilità di $\cur{ g(X) =1 }$ corrisponde all'area del sottografico della densità esponeziale negli intervalli $g^{-1}(1) = (0,1) \cup (2, \infty)$.

Figura 3.6: La probabilità di \(\cur{ g(X) =1 }\) corrisponde all’area del sottografico della densità esponeziale negli intervalli \(g^{-1}(1) = (0,1) \cup (2, \infty)\).

# calcoliamo infine l'area
# numericamente


((sum(dens[x < 1]) + sum(dens[x > 2])) *
  deltax)
## [1] 0.7632419
# e la confrontiamola con quella
# teorica

(prob_teorica <- 1 - exp(-1) + exp(-2))
## [1] 0.7674558

Quando accade invece che, se \(X\) ha densità continua, anche \(g(X)\) ammette densità continua? Sicuramente \(g\) deve assumere un infinità continua di valori, tuttavia non è sufficiente, come mostra il seguente esempio.

Esempio 3.11 Sia \(X\) una varibile continua uniforme nell’intervallo \([-1,1]\) e sia \(g: \R \to \R\) definita a tratti \[ g(x) = \begin{cases} x & \text{se $x \ge 0$,}\\ 0 & text{altrimenti.}\end{cases}\]

x <- seq(-2, 2)

plot(NULL, xlim = c(-2, 2), ylim = c(0, 2),
  xlab = "valori", ylab = "densità e g(x)")

# plottiamo la densità uniforme

lines(x = c(-2, -1), y = c(0, 0), lwd = 3,
  col = miei_colori[2])
lines(x = c(-1, 1), y = c(1/2, 1/2), lwd = 3,
  col = miei_colori[2])
lines(x = c(1, 2), y = c(0, 0), lwd = 3,
  col = miei_colori[2])

lines(x = c(1, 1), y = c(0, 1/2), type = "l",
  lty = "dashed", col = miei_colori[2])
lines(x = c(-1, -1), y = c(0, 1/2), type = "l",
  lty = "dashed", col = miei_colori[2])


# evidenziamo l'area che viene mandata
# da g nel valore 0

polygon(c(0, 0, -1, -1), c(0, 0.5, 0.5, 0),
  col = miei_colori[1])

# plottiamo il grafico di g(x)

lines(x = c(-2, 0), y = c(0, 0), col = miei_colori[3],
  lwd = 3)
lines(x = c(0, 2), y = c(0, 2), col = miei_colori[3],
  lwd = 3)
grafico della densità di $X$ e della funzione $g(x)$, la probabilità corrispondente all'area in rosso viene assegnata al valore $0$ da $g$

Figura 3.7: grafico della densità di \(X\) e della funzione \(g(x)\), la probabilità corrispondente all’area in rosso viene assegnata al valore \(0\) da \(g\)

Allora \(g(X)\) non può essere una variabile continua, perché \(g(X) = 0\) se e solo se \(X \in [-1,0]\) che ha probabilità \(1/2\).

Riflettendo su questo esempio, si capisce che il problema sono le regioni in cui il grafico di \(g\) è piatto, ossia \(g'(x)=0\). In effetti questo è l’unico ostacolo (assumendo che \(g\) sia abbastanza regolare) a dedurre che \(g(X)\) ammette densità. Vale infatti la seguente formula di cambio di variabile.

Teorema 3.1 (cambio di variabile) Sia \(X\) una variabile aleatoria a valori in \(\R\), con densità continua \(p(X=x|I)\). Sia \(g: \R \to \R\) una funzione invertibile, derivabile, con derivata continua e mai nulla \(g'(x)\neq 0\). Allora \(g(X)\) ammmette densità continua e vale \[ p(g(X) = z | I) = p( X = g^{-1}(z) |I) \cdot\frac{1}{|g'(g^{-1}(z))|} \]

Osserviamo che il primo dei due termini a destra è piuttosto intuitivo: si valuta la densità nell’unico punto \(x = g^{-1}(z)\) che viene mandato da \(g\) in \(z\). Il secondo termine invece si spiega ricordando che la densità continua ha l’unità di misura [probabilità]/[lunghezza] e quindi ad esempio se \(X\) è espressa in metri e \(g\) è un cambio di unità di misura (ad esempio da metri a kilometri), \(g' = dg/dx\) ha l’unità di misura [Km]/[m] e quindi la densità di \(g(X)\) ha l’unità di misura corretta. Inoltre osserviamo che essendo \(g'\) a denominatore ritroviamo esattamente il fatto che le regioni “piatte” o quasi piatte del grafico di \(g\) (ossia con \(g'\) piccola) danno un contributo grande alla densità di \(g(X)\), e nel limite \(g'=0\) si esce dal caso di densità continua. Notiamo infine che il valore assoluto \(|g'|\) evita (giustamente) densità negative.

Proof. La dimostrazione della formula sopra segue direttamente da un cambio di variabile nell’integrale. Supponiamo che \(g'(x)>0\) per ogni \(x \in \R\), ossia che \(g\) sia crescente (l’altro caso è analogo). Dato un intervallo \([a,b]\), si ha (sottointendiamo \(I\)) \[\begin{split} P( a < g(X) < b ) &= P( g^{-1}(a) < X < g^{-1}(b))\\ & = \int_{g^{-1}(a)}^{g^{-1}(b)} p(X = x) dx \\ & \text{[posto $g(x) = z$]} \int_a^b p(X = g^{-1}(z)) (g^{-1})'(z) d z \end{split}\] e la conclusione regue ricordando la formula per la derivata della funzione inversa: \[ (g^{-1})'(z) = \frac{1}{|g'(g^{-1}(z))|}.\]

Esempio 3.12 Consideriamo una variabile \(X\) con densità esponenziale di parametro \(\lambda\) e sia \(g(x) = a x\), dove \(a>0\) è un altro parametro (noto). Allora si trova \(g'(x) = a\), \(g^{-1}(z) = z/a\) e quindi la densità di \(g(X) = aX\) è \[ p( aX = z ) = p(X = z/a) \frac{1}{a} = \begin{cases} \frac{\lambda}{a} e^{-(\lambda/a) z} & \text{per $z \ge 0$,}\\ 0 & \text{altrimenti.} \end{cases}\] e riconosciamo quindi una densità esponenziale di parametro modificato \(\lambda/a\).

Più in generale, se \(X\) assume con probabilità \(1\) valori in un intervallo \(E \subseteq \R\) e \(g:E \to \R\) è tale che si può decomporre \(E\) in una unione finita di intervalli a due a due disgiunti in cui, all’interno di ciascun intervallo, \(g\) sia invertibile, derivabile con derivata continua e mai nulla \(g'(x) \neq 0\). Allora \(g(X)\) ammette densità continua \[ p(g(X) = z | I ) = \sum_{ x \in g^{-1}(z)} p( X =x | I ) \cdot \frac{1}{|g'(x)|}.\] Notiamo che questa formula vale in tutti i valori \(z \in g(E)\) eccetto al più quelli che sono immagine tramite \(g\) di un estremo degli intervalli (dove la derivata \(g'\) potrebbe essere nulla oppure proprio non esistere).

Esempio 3.13 Consideriamo una variabile \(X\) con densità esponenziale di parametro \(1\) e sia \(g(x) =\log(x)\), che non è definita su tutto \(\R\), ma essendo \(P(X \le 0) = 0\), possiamo ridurci a \(E = (0, \infty)\), dove risulta invertibile con derivata \(g^{-1}(z)= e^z\) e derivabile con derivata \(\log'(x) = 1/x\) non nulla. Troviamo quindi la densità di \(g(X) = \log(X)\), per \(z \in \R\), \[ p( \log(X) = z ) = p( x = e^z) e^z = e^{-e^z + z}.\]

Esempio 3.14 Sia \(X\) una variabile continua con densità uniforme sull’intervallo \([-1,1]\) e sia \(g(x)= x^2\). In questo caso possiamo decomporre l’intervallo \(E = [-1,1]\) in nei due intervalli \([-1,0]\) e \((0,1]\) disgiunti, in cui \(g(x)\) è invertibile e si trova, per \(z \in [0,1]\), \(g^{-1}(z)=\pm\sqrt{z}\) con il segno determinato dall’intervallo che consideriamo. La funzione \(g\) è derivabile ovunque, ma la derivata $g’(x)= 2x $ è nulla in \(0\). Dovremo quindi escludere \(g(0) = 0\) dalla formula per la densità (altrimenti si trova un contributo che possiamo intepretare come \(1/0 = \infty\)). Applicando quindi la formula generalizzata, vale per \(z \in g(E) = [0,1]\), \(z \neq g(0) = 0\), \[ p( X^2 = z) = p( X = -\sqrt{z}) \cdot \frac{1}{2 \sqrt{z}}+ p( X = \sqrt{z}) \cdot \frac{1}{2 \sqrt{z}} = \frac{1}{2 \sqrt{z}},\] mentre in tutti gli altri \(z\) si ha \(p(X^2 = z) = 0\).

Si può sempre controllare (è bene farlo in casi complicati come questo) che \[\int_{-\infty}^\infty p(g(X)= z) d z = 1,\] che in questo caso diventa l’identità \[ \int_0^1 \frac{1}{2 \sqrt{z}} d z = 1.\]

Questa formula permette di determinare la densità di \(g(X)\) nel caso di variabili a valori in \(\R\), ma esistono formule analoghe nel caso vettoriale, per funzioni \(g:\R^d \to \R^k\) e \(k \le d\). Non faremo uso negli esercizi di queste formule e menzioniamo solamente il caso speciale di \(k=d\), analogo al teorema visto sopra nel caso \(d=1\). Ricordiamo che una funzione \(g = (g_1, g_2,\ldots, g_d)= \R^d \to \R^d\) è derivabile se ammette in ogni punto un’approssimazione lineare (al primo ordine) tramite la matrice \(d\times d\), detta Jacobiana, delle derivate parziali di \(g\), \[ Dg(x) = \bra{\frac{\partial g_i}{\partial x_j}(x)}_{i,j=1, \ldots, d}.\]

Teorema 3.2 (cambio di variabile, caso vettoriale) Sia \(X\) una variabile aleatoria vettoriale, a valori in \(\R^d\), con densità continua \(p(X=x|I)\). Sia \(g: \R^d \to \R^d\) una funzione invertibile, derivabile con derivata continua e invertibile in ogni punto, ossia \[ \det \bra{ \bra{\frac {\partial g_j(x)}{\partial x_i} }_{i,j=1, \ldots, d}} \neq 0, \quad \text{per ogni $x \in \R^d$.}\] Allora \(g(X)\) ammmette densità continua e vale \[ p(g(X) = z | I) = p( X = g^{-1}(z) |I) \cdot\frac{1}{|\det(Dg)(g^{-1}(z))|} \]

Notiamo ancora che le “unità di misura” sono rispettate essendo \(\det(Dg)\) prodotto di \(d\) termini del tipo \(dg_j/dx_i\).

Esempio 3.15 Sia \(g(x ) = Ax +b\) una trasformazione affine, ossia \(A \in \R^{d\times d}\) e \(b \in \R^d\) fissati (e noti, osserviamo in particolare che \(A\) indica una matrice, non una variabile aleatoria). Allora si sa che \(Dg(x)= A\), e quindi se \(A\) è invertibile tutte le condizioni del teorema sono soddisfatte, perciò data \(X\) a valori in \(\R^d\) con densità continua, anche \(g(X) = AX+b\) ammette densità data da \[ p( AX +b = z ) = p( X = A^{-1}(z-b)) \frac{1}{|\det(A)|}.\] Per fare un esempio più concreto, se la densità di \(X\) è una funzione radiale, ossia della distanza dall’origine \(p(X = x) = f(|x|)\), allora la formula sopra mostra che la densità non cambia se si applicano rotazioni (o più in generale una trasformazione ortogonale, \(A^T A = Id\)).

3.3.1 Esercizi

Esercizio 3.5 Sia \(X\) una variabile con densità discreta binomiale di parametri \((30, 1/3)\). Calcolare analiticamente e poi numericamente (usando opportuni comandi R) la densità discreta della variabile \(Y = (X-10)^2\).

Esercizio 3.6 Sia \(X\) una variabile con densità continua uniforme su \([0,1]\). Determinare la densità (continua o discreta?) di \(aX+b\), dove \(a\), \(b \in \R\) sono parametri (da ritenere noti).

Esercizio 3.7 Sia \(X\) una variabile con densità continua esponenziale di parametro \(\lambda= 3\). Determinare la densità di \(X^2\) e più in generale di \(X^p\), dove \(p \neq 0\) è un parametro (da ritenere noto).