3.2 Legge (o distribuzione) di una variabile
Data una variabile aleatoria \(X\) a valori in \(E\), spesso si è interessati a determinare la probabilità, rispetto ad una informazione \(I\), che \(X\) sia uguale a un dato valore \(x\), \[ P(X =x | I) \] (si evita di scrivere la parentesi \(\cur{}\) per semplificare la notazione), oppure più in generale che \(X\) assuma valori in un sottoinseme \(U \subseteq E\), \[ P(X \in U |I),\] Ad esempio, se \(E = \R\), \(U\) potrebbe essere un intervallo centrato in un punto \(x\), perché magari non si dispone di uno strumento per misurare il valore di \(X\) oltre una certa soglia di precisione. Questo interesse si traduce nel concetto di legge (o distribuzione) di una variabile aleatoria.
Definizione 3.1 (legge di una variabile) Data una variabile aleatoria \(X\) a valori in \(E\), la sua legge o distribuzione (rispetto all’informazione \(I\)) è la funzione che ad ogni sottoinsieme \(U \subseteq E\) associa la probabilità \[ P(X \in U | I).\]
Si tratta di una definizione utile in generale, ma che presenta diversi problemi sul lato pratico: come determinare la legge di una variabile? è davvero necessario calcolare \(P(X\in U|I)\) per ogni sottoinsieme \(U\)? ricordiamo che i sottoinsiemi di un insieme con \(n\) elementi sono \(2^n\), quindi sembra davvero costoso in termini di memoria e tempo di calcolo. Vedremo ora che per conoscere la legge di una variabile è in realtà sufficiente, in molti casi importanti, determinare la sua densità (discreta o continua), che è una funzione definita sui possibili valori \(x \in E\) (e non sui sottoinsiemi). Questo generalizza il concetto di densità discreta di un sistema di alternative, già visto nella Sezione 2.3.
Remark. La legge di \(X\), essendo una collezione di probabilità, dipende sempre dall’informazione nota \(I\). Spesso ometteremo di specificare \(I\), anche nella notazione, tuttavia è importante tenere a mente che, diversamente dalle leggi fisiche, che tendenzialmente consideriamo immutabili (ad esempio, la legge di gravità), la legge di una variabile può cambiare in base all’informazione di cui si dispone (volendo trovare un’analogia, è quindi piuttosto simile alle leggi che regolano le società umane, che cambiano nel tempo).
3.2.1 Densità discreta
Ad ogni sistema di alternative (finito) \((A_i)_{i=1}^n\) è naturalmente associata una densità discreta \(P(A_i |I)\) (ovviamente rispetto ad una informazione \(I\)). La densità discreta si è già rivelata utile per determinare quale alternativa sia la più probabile (moda), o comunque per visualizzare, tramite un grafico a barre, l’incertezza riguardante un sistema di alternative.
In questa sezione generalizziamo il concetto di densità discreta al caso di variabili aleatorie, anche nel caso in cui possano assumere infiniti valori, ma in un certo senso “discreti”, come ad esempio i numeri naturali \(\mathbb{N}\) oppure gli interi \(\mathbb{Z}\)6, ma non i numeri reali \(\R\).
Definizione 3.2 Sia \(E\) un insieme finito o infinito discreto e sia \(X\) una variabile aleatoria a valori in \(E\). Si definisce densità discreta7 di \(X\) (rispetto ad \(I\)) la funzione che ad ogni valore \(x \in E\) associa la probabilità di \(\cur{X= x}\), ossia \[ x \mapsto P(X=x|I).\]
Questa è una generalizzazione diretta di quanto abbiamo introdotto per i sistemi di alternative finiti. In particolare, una densità discreta deve essere una funzione che assume valori in \([0,1]\) (essendo probabilità) e tale che \[ \sum_{x \in E} P(X = x | I) = 1,\] dove la sommatoria è intesa come serie nel caso in cui \(E\) sia infinito.
Remark. A volte si scrive pure che \(X\) a valori in un insieme infinito (ma anche non discreto, come ad esempio \(E = \R\)) ha densità discreta oppure è una variabile aleatoria discreta. In tal caso significa che in realtà \(X\) assume valori in un sottoinsieme \(E' \subseteq E\) finito o infinito discreto, e si pone \(P(X \notin E' | I) = 0\) (a tutti gli effetti si può quindi rimuovere la differenza \(E\setminus E'\)). In tal caso è bene sempre ricordare che la densità discreta di \(X\) dipende dal’informazione nota \(I\), e che in particolare una nuova informazione potrebbe cambiare una variabile discreta in una non discreta.
Esempio 3.1 (variabile aleatoria costante) Diciamo che \(X\) a valori in \(E\) è costante se esiste un valore \(\bar{x} \in E\) tale che \(\cur{X=\bar{x}}\) è quasi certo, ossia \[ P(X = \bar{x}|I) = 1,\] e necessariamente \(P(X \neq \bar{x} |I ) = 0\). Scriviamo quindi \(X = \bar{x}\) oppure \(X \equiv \bar{x}\). Questo permette di includere variabili aleatorie che non sono affatto aleatorie (ma è un concetto utile da avere). Ad esempio, dopo aver saputo l’esito del lancio di un dado (ad esempio, \(4\)) la variabile \(X\) che indica l’esito del lancio è constante \(X \equiv 4\).
Esempio 3.2 (densità uniforme discreta) Diciamo che \(X\) a valori in un insieme finito \(E\), contenente \(n\) elementi, ha densità uniforme (discreta), se il sistema di alternative corrispondente ha densità uniforme, ossia \[ P(X = x | I) = \frac{1}{n}, \quad \text{per ogni $x \in E$.}\] Ad esempio, prima del lancio di un dado, la variabile \(X\) a valori in \(\cur{1,2,3,4,5,6}\) ha densità uniforme (non sapendo nulla più che il dado ha \(6\) facce).
Esempio 3.3 (variabile indicatrice) Similmente, se \(X\) è a valori in \(\cur{0,1}\) diremo che ha densità di Bernoulli di parametro \(p \in [0,1]\) se il sistema di alternative \(A_0 = \cur{X = 0}\), \(A_1 =\cur{X=1}\) ha densità discreta di Bernoulli: \[ P(X = 1 | I ) = p, \quad P(X=0| I) = 1-p.\] Le variabili a valori in \(\cur{0,1}\) sono anche dette indicatrici, perché possono essere utilizzate al posto di un evento \(A\), definendo una variabile \(X_A\) che indichi appunto se \(A\) è vero. Si pone quindi \(\cur{X_A =1} = A\), \(\cur{X_A = 0} = \not A\). Questo è comodo ad esempio se si vuole ragionare usando solo in termini di variabili aleatorie (per ogni affermazione si costruisce quindi una opportuna variabile).
Esempio 3.4 (densità binomiale) Diciamo che \(X\) a valori in \(\cur{0,1, \ldots, n}\) ha densità binomiale di parametri \((n,p)\) se vale \[ P(X = k | I) = {n \choose k} p^k (1-p)^{n-k} \quad \text{per ogni $k \in \cur{0,1, \ldots, n}$.}\] Ricordando la derivazione della densità binomiale, possiamo dire che \(X\) conta il numero di successi (estrazione di una pallina rossa) in una successione di \(n\) esperimenti indipendenti (estrazioni con rimpiazzo).
Gli esempi non si limitano al caso di \(E\) finito: vi sono molte densità discrete utili da conoscere, perché compaiono spesso, ad esempio nel caso di variabili che assumono valori naturali.
Esempio 3.5 (densità Poisson) Dato un parametro \(\lambda>0\), si dice che \(X\) a valori in \(\mathbb{N}\) ha densità Poisson (di parametro \(\lambda\)) se vale, per ogni \(k = 0, 1, \ldots\), \[ P(X = k | I) = e^{-\lambda} \frac{\lambda^k}{k!}.\] Il termine \(e^{-\lambda}\) serve a garantire che la serie sommi ad \(1\), ricordando la serie di Taylor dell’esponenziale \[ \sum_{k=0}^\infty \frac{ \lambda^k}{k!} = e^\lambda.\]
# usiamo la funzione dpois() per
# ottenere direttamente la densità
# Poisson con i parametri richiesti
<- 10
n <- 0:n
k <- dpois(k, 1)
dens_1 <- dpois(k, 4)
dens_4 <- dpois(k, 8)
dens_8
<- matrix(c(dens_1, dens_4,
dens_matrice nrow = 3, byrow = TRUE)
dens_8),
# parametri per il plot
<- as.character(k)
valori <- miei_colori[1:3]
colori
barplot(dens_matrice, beside = TRUE, col = colori,
names.arg = valori, ylab = "densità discreta Poisson",
xlab = "valori della variabile")
# legenda
legend("topright", fill = colori, legend = c("lambda = 1",
"lambda = 4", "lambda = 8"), cex = 0.8)
La densità discreta permette di conoscere tutta la legge di \(X\) (sempre nel cason in cui i possibili valori \(E\) siano un insieme finito oppure infinito ma “discreto”): si tratta di una semplice conseguenza della regola della somma, e per il caso infinito, di un passaggio al limite (appoggiandosi alla teoria di Kolmogorov per renderlo rigoroso).
Proposizione 3.1 Se \(X\) assume valori in un insieme \(E\) finito oppure infinito discreto, vale per ogni \(U \subseteq E\), \[ P(X \in U|I) = \sum_{x \in U} P(X = x |I),\] dove la sommatoria è intesa come serie nel caso infinito.
Esempio 3.6 La probabilità che una variabile Binomiale di parametri \(n=7\), \(p=1/6\) assuma valori pari, si ottiene ponendo \(U = \cur{0,2,4,6}\), e pertanto vale (non indichiamo \(I\)) \[ \begin{split} P(X=0)+P(X=2)+ P(X=4)+P(X=6) & = \sum_{k=0}^3 P(X = 2k)\\ & = \sum_{k=0}^3 {7 \choose 2k} \bra{\frac 1 3}^{2k} \bra{\frac 2 3 }^{7 - 2k},\end{split}\] che vale circa il \(53\%\), come mostra il seguente codice R.
# crea il vettore con i valori
# richiesti
<- 2 * (0:3)
pari
# calcola la densità discreta nei
# valori richiesti
<- dbinom(pari, 7, 1/6)
dens_pari
# somma le densità trovate per trovare
# la probabilità richiesta
<- sum(dens_pari)) (prob_pari
## [1] 0.5292638
Possiamo anche evidenziare nel grafico a barre i valori della variabile \(X\) che contribuiscono a determinare la probabilità richiesta (che risulta quindi la somma delle altezze delle barre evidenziate).
# usiamo la funzione dbinom() per
# ottenere direttamente la densità
# binomiale con i parametri cercati
<- 7
n <- 0:n
k <- 1/6
p
<- dbinom(k, n, p)
dens
# parametri per il plot: coloriamo di
# rosso le probabilità relative agli
# esiti pari
<- as.character(k)
valori <- c(miei_colori[2], rep(miei_colori[1:2],
colori 3))
barplot(dens, col = colori, names.arg = valori,
ylab = "probabilità", xlab = "valore")
3.2.2 Densità continua
Un problema sorge quando si vuole trattare il caso di un infinito “continuo”, come ad esempio un intervallo dei numeri reali. L’interesse per questo caso è che alcune grandezze si rappresentano meglio come un “continuo” di valori (si pensi alla temperatura di un oggetto, la velocità di un mezzo, ecc.), e inoltre questo permetterebbe l’uso di tecniche di calcolo (derivate, integrali, ecc.).
Per dare un’esempio concreto, supponiamo di voler definire una variabile \(X\) “uniforme” su tutti i valori dell’intervallo \([0,1]\): ad esempio, \(\cur{X = x}\) potrebbe rappresentare l’informazione che un’urna contiene una frazione \(x\) di palline rosse sul totale. Si tratta ovviamente di una idealizzazione e si può pensare come il limite della densità discreta uniforme sugli \(n\) valori \(\cur{1/n, 2/n, \ldots, 1}\) per \(n\) che tende ad infinito. Il passaggio al limite però è piuttosto tecnico, quindi vorremmo direttamente definire un analogo continuo della densità uniforme. Notiamo tuttavia che non possiamo definire \[ P(X = x | I) = c \] per nessun valore \(c>0\), altrimenti sommando sugli infiniti valori possibili, la serie diverge: \[ \sum_{x \in [0,1]} c = \infty.\] L’idea informale è quindi che ogni alternativa \(\cur{X =x}\) ha una quantità infinitesima di probabilità, un po’ come in una catena ogni anello contribuisce alla massa totale. Per rendere preciso questo concetto, introduciamo una funzione di densità continua di probabilità, che denoteremo ad esempio \[ p(X = x | I)\] che va intesa come la quantità di probabilità per unità di lunghezza (allo stesso modo come la densità di massa o la densità di carica in fisica). Dato un intervallo \([x, x + \Delta x]\) di lunghezza \(\Delta x\) molto piccola, si potrà approssimare \[ P(X \in [x, x + \Delta x] | I ) \sim p(X = x | I) \Delta x.\]
Diamo allora una definizione rigorosa.
Definizione 3.3 (densità continua) Sia \(X\) una variabile aleatoria a valori in \(\R\) e sia \(f: \R \to [0, \infty)\) una funzione integrabile nel senso di Riemann, eventualmente improprio, tale che \[ \int_{-\infty}^\infty f(x) d x = 1.\] Si dice che \(X\) ha densità continua8 \(f\) (rispetto all’informazione \(I\)) se vale, per ogni intervallo \((a,b) \subseteq \R\), \[ P( a < X < b | I) = \int_a^b f(x) d x,\]
Ricordando l’interpretazione dell’integrale come area sotto il grafico di \(f\), segue che l’area sottesa dal grafico su tutta la retta reale vale \(1\), mentre la probabilità che \(X\) assuma valori nell’intervallo \((a,b)\) è l’area sotto il grafico ristretto all’intervallo.
# plottiamo la densità f(x) = 3/4(
# 1-x^2) su (-1, 1) e nulla fuori
# dall'intervallo.
<- 0.01
deltax <- seq(-1, 1, by = deltax)
x <- (1 - x^2) * 3/4
dens
plot(x, dens, type = "l", xlab = "valori",
ylab = "densità continua", lwd = 3,
col = miei_colori[2])
# evidenziamo l'area sotto il grafico
# nell'intervallo (-1/2, 0)
polygon(c(x[50:100], x[100], x[50]), c(dens[50:100],
0, 0), col = miei_colori[1])
Remark. Nonostante il nome, non è richiesto che \(f\) sia una funzione continua (anche se in molti casi interessanti lo è). Ad esempio può presentare delle discontinuità a salto, che comunque non danno problemi nel calcolo dell’integrale.
Spesso si dice anche che \(X\) è una variabile aleatoria continua, per dire che \(X\) ammette una densità continua. Si può mostrare che, se \(X\) ammette densità continua, la funzione \(f\) è quasi del tutto determinata (eccetto al più in pochi punti, in modo da non modificare gli integrali). Si può quindi introdurre una notazione per identificare tale \(f\). Il problema purtroppo è che non vi è un’unica convenzione per indicare la densità, ad esempio in alcuni testi si trova \(f_X\), in altri \(p_X(x)\) oppure semplicemente \(p(x)\) (usando la variabile matematica, non aleatoria, \(x\) per ricordare che è la densità della variabile aleatoria \(X\)). Inoltre in molte notazioni non è indicata l’informazione \(I\) (spesso perché e fissata). In questo caso conviene sempre chiedere precisazioni su una notazione, se non è chiara. Noi adotteremo la seguente notazione: \[ p(X = x |I), \] dove l’unica differenza è la \(p\) minuscola rispetto alla \(P\) maiuscola di probabilità. Pertanto la formula che definisce la densità di \(X\) si riscrive come \[ P( a< X< b|I) = \int_a^b p(X=x|I) d x.\]
Una variabile \(X\) che ammette densità continua \(p(X=x|I)\) necessariamente è tale che \(P(X=x|I) = 0\) per ogni \(x \in \R\) (ossia ha densità discreta nulla), perché prendendo un intervallo \((a,b)\) contenente \(x\), si ha per monotonia \[ P(X = x | I) \le P(a<X<b | I ) = \int_a^b p(X=x|I) d x,\] e al tendere di \(a, b \to x\) l’integrale tende a zero.
Remark. L’analogia con il caso discreto è quindi che l’integrale sostituisce la somma, tuttavia vale la pena di notare che, dovendo attribuire una “unità di misura” alla densità di probabilità, essa sarebbe [probabilità]/[unità di misura di \(X\)] (ad esempio metri se \(X\) rappresenta una lunghezza in metri), mentre la probabilità “infinitesima” sarebbe il termine formale \(p(X=x|I)dx\).
Vediamo due esempi.
Esempio 3.7 (densità uniforme) Dato un intervallo \([a,b] \subseteq \R\), si dice che \(X\) è una variabile uniforme (continua) su \([a,b]\) se ammette densità continua costante sull’intervallo \([a,b]\) e nulla al di fuori di esso. Pertanto, dovendo avere area unitaria, si deduce che \[ p(X=x| \text{uniforme su $[a,b]$}) = \begin{cases} \frac 1 {b-a} & \text{se $x \in [a,b] $}\\ 0 & \text{altrimenti} \end{cases} \] In particolare, se \(b-a<1\) la densità assume valori maggiori di \(1\) (questo fatto è ovviamente possibile, perché la condizione di essere compresa tra \(0\) e \(1\) riguarda la probabilità, non la densità).
# creiamo un grafico vuoto
plot(NULL, xlim = c(-1, 1), ylim = c(0, 3),
xlab = "valori", ylab = "densità continua")
# aggiungiamo i segmenti con il comando
# lines
lines(x = c(-1, 0), y = c(0, 0), col = miei_colori[2],
lwd = 3)
lines(x = c(0, 1/3), y = c(3, 3), col = miei_colori[2],
lwd = 3)
lines(x = c(1/3, 1), y = c(0, 0), col = miei_colori[2],
lwd = 3)
# aggiungiamo dei segmenti tratteggiati
# per evidenziare la discontinuità
lines(x = c(1/3, 1/3), y = c(0, 3), type = "l",
lty = "dashed", col = miei_colori[2])
lines(x = c(0, 0), y = c(0, 3), type = "l",
lty = "dashed", col = miei_colori[2])
Esempio 3.8 (densità esponenziale) Dato un parametro \(\lambda>0\), si dice che \(X\) a valori in \(\R\) è una variabile con legge esponenziale (con parametro \(\lambda\)) se ammette densità continua proporzionale a \(e^{-\lambda x}\) se \(x \ge 0\) e nulla per \(x<0\) (quindi a tutti gli effetti la variabile assume valori positivi). Pertanto, dovendo avere area unitaria, si deduce che \[ p(X=x| \text{Exp}(\lambda) ) = \begin{cases} \lambda e^{-\lambda x} & \text{se $x \ge 0$}\\ 0 & \text{altrimenti.} \end{cases} \] In particolare, maggiore è \(\lambda\), maggiore è la densità vicino a \(x=0\) (vedere i grafici) e di conseguenza maggiore la probabilità che \(X\) assuma valori piccoli. Vedremo in un senso preciso che \(X\) vale circa (in media) \(1/\lambda\).
# creiamo un grafico vuoto
plot(NULL, xlim = c(0, 4), ylim = c(0, 2),
xlab = "valori", ylab = "densità continua")
# aggiungiamo le densità con il comando
# lines() e la funzione dexp() per
# calcolare la densità esponenziale
<- 0.01
deltax <- seq(0, 4, by = deltax)
x
lines(x, dexp(x, rate = 1/2), col = miei_colori[1],
lwd = 3)
lines(x, dexp(x, rate = 1), col = miei_colori[2],
lwd = 3)
lines(x, dexp(x, rate = 2), col = miei_colori[3],
lwd = 3)
# linea tratteggiata per evidenzare la
# discontinuità in 0
lines(c(0, 0), c(0, 2), lty = "dashed", col = "gray")
# legenda
legend("topright", fill = miei_colori[1:3],
legend = c("lambda = 1/2", "lambda = 1",
"lambda = 2"), cex = 0.8)
Quanto introdotto nel caso di variabili a valori in \(\R\) si estende al caso di variabili vettoriali, ossia a valori in uno spazio \(\R^d\) (ad esempio a valori nel piano se \(d=2\)), purché si faccia utilizzo dell’integrazione in più variabili. Nel corso ci soffermeremo solamente su alcuni casi speciali di leggi di variabili vettoriali (in particolare le variabili gaussiane), ma possiamodare qui una definizione generale di densità continua, analoga al caso reale \(d=1\). Non chiederemo comunque mai negli esercizi di calcolare integrali in più variabili.
Definizione 3.4 (densità continua, caso vettoriale) Sia \(X\) una variabile aleatoria a valori in \(\R^d\) e sia \(f: \R^d \to [0, \infty)\) una funzione integrabile (in più variabili) tale che \[\int_{\R^d} f = \int_{-\infty}^\infty d x_1 \ldots \int_{-\infty}^\infty dx_d \, f(x_1, \ldots, x_d) = 1.\] Si dice che \(X\) ha densità continua \(f\) (rispetto all’informazione \(I\)) se vale, per ogni “rettangolo” \[ U = (a_1,b_1) \times \ldots \times (a_d,b_d) \subseteq \R^d,\] \[ P( X \in U | I) = \int_U f = \int_{a_1}^{b_1} d x_1 \ldots \int_{a_d}^{b_d} dx_d \, f(x_1, \ldots, x_d).\]
Anche in questo caso indicheremo con \[p(X = x | I)\] la densità continua di \(X\), con \(x \in \R^d\) (anch’essa è determinata a meno di modificazioni che non cambiano gli integrali in più variabili). Stavolta però, per guidare l’intuizione, osserviamo che l’unità di misura asociata alla densità è [probabilità]/[volume], se ciascuna coordinata rappresenta una lunghezza (altrimenti un prodotto opportuno delle unità di misura di ciascuna coordinata).
3.2.3 Esercizi
Esercizio 3.2 Usando il comando R dbinom()
calcolare la probabilità che una variabile aleatoria con densità binomiale di parametri \((15, 1/2)\) assuma valori pari. Ripetere con i parametri \((16, 1/2)\) e \((17, 1/2)\), \((18, 1/2)\). Cosa notate?
Esercizio 3.3 Sia \(X\) una variabile aleatoria con densità continua esponenziale di parametro \(\lambda = 3\). Calcolare la probabilità dell’evento \[ \cur{ |X-1| <1/2} \cup \cur{ X^2 >9},\] sia analiticamente sia numericamente con opportuni comandi \(R\) (approssimare eventualmente gli integrali con una somma finita).
Esercizio 3.4 Sia \(X\) una variabile con densità continua uniforme su \([a,b] \subseteq \R\), rispetto ad una informazione nota \(I\). Si supponga di osservare che \(X \in [c,d]\), dove \([c,d ]\subseteq [a,b]\). Come cambia la densità di \(X\)?