4.1 Funzione cumulativa

Data una variabile aleatoria \(X\) a valori in \(\R\), abbiamo descritto efficacemente la sua legge (rispetto ad una informazione nota \(I\)) tramite la densità discreta oppure continua.

In molti casi si è semplicemente interessati a conoscere la probabilità che \(X\) assuma valori “grandi”.

Esempio 4.1 Per fare un esempio dal mondo della finanza, sia \(X\) la quantità di denaro che un investitore potrebbe guadagnare (se positiva) o perdere (se negativa) in una fissata data futura, a seconda dell’andamento del mercato: di sicuro l’interesse principale per l’investitore sarà di valutare la probabilità di \(\cur{ X > x}\) (per capire quanto guadagnerà), oppure la negazione \(\cur{X \le x}\) (per capire quanto perderà).

Partendo da questa osservazione, si introducono due funzione strettamente collegate:

  1. la funzione di ripartizione (o funzione cumulativa, in inglese cumulative distribution function, \(\CDF\),) di \(X\), definita come la funzione che ad ogni possibile valore \(x \in \R\) associa la probabilità che \(X \le x\), \[ x \mapsto \CDF_X(x) = P(X \le x), \] a volte indicata anche semplicemente come \(F_X\), ma è una notazione poco evocativa che eviteremo.

  2. la funzione di sopravvivenza (in inglese survival function) di \(X\), definita invece come la funzione \[ x \mapsto \SUR_X(x) = P(X>x),\] a volte indicata anche solo \(S_X\) (ma eviteremo questa notazione).

Remark. In entrambe le definizioni sopra abbiamo sottointeso la dipendenza della probabilità dall’informazione nota \(I\). Volendo invece indicare la dipendenza dall’informazione \(I\), possiamo scrivere \(\CDF_{X|I}\) oppure \(\SUR_{X|I}\).

Vi è chiaramente un legame tra le due funzioni, essendo \(\cur{X \le x}\) e \(\cur{X>x}\), fissato un qualsiasi \(x \in \R\), un sistema di alternative. Ne segue che, per ogni \(x \in \R\), \[ \CDF_X(x) + \SUR_X(x) = 1,\] quindi \(\CDF_X\) o \(\SUR_X\) contengono la stessa informazione sulla legge di \(X\).

Se la densità (discreta o continua) di \(X\) è nota, è molto semplice calcolare la \(\CDF_X\), ricordando che \(P(X \le x) = P(X \in (-\infty, x] )\) si ottiene sommando (o integrando) la densità su tutti i possibili valori di \(X\) che sono minori o uguali ad \(x\): \[ \CDF_X(x) = \begin{cases} \sum_{ z \le x} P(X = z ) & \text{se $X$ ha densità discreta,}\\ \int_{-\infty}^x f(z) d z & \text{ se $X$ ha densità continua.}\end{cases} \tag{4.1}\]

Possiamo quindi intepretare (almeno nel caso continuo) la \(\CDF_X(x)\) come l’area del sottografico della densità da \(-\infty\) fino ad \(x\).

Analogamente, per la funzione di sopravvivenza, si somma (o integra) sui valori strettamente maggiori di \(x\): \[ \SUR_X(x) = \begin{cases} \sum_{ z > x} P(X = z ) & \text{se $X$ ha densità discreta,}\\ \int_x ^{+\infty} f(z) d z & \text{ se $X$ ha densità continua,}\end{cases}\]

e quindi corrisponde all’area del sottografico della densità (continua) da \(x\) a \(+\infty\).

Esempio 4.2 Si consideri una variabile aleatoria \(X\) sui valori \(E = \cur{-2,1,0,2}\) avente densità uniforme \[ P(X =i ) = 1/4.\] Il grafico della sua densità discreta e della \(\CDF_X\), ottenuto tramite la formula sopra (nel caso discreto) è rappresentata in figura:

# possibili valori e densità discreta
valori_X <- c(-2, 0, 1, 2)
densita_X <- rep(1/4, 4)

# iniziamo con un grafico vuoto:


plot(NULL, xlab = "valori", ylab = "probabilità",
  ylim = c(0, 1), xlim = c(-3, 3))

# per avere un plot su un intervallo ad
# esempio (-3,3), aggiungiamo
# artificialmente i due valori estremi
# con densità 0 (questo rende più
# semplice fare il plot della CDF come
# funzione a gradini)

valori_X <- c(-3, valori_X, 3)
densita_X <- c(0, densita_X, 0)


# per ottenere la funzione di
# ripartizione nei punti valori_X
# usiamo il comando cumsum().

CDF_X <- cumsum(densita_X)


# aggiungiamo il grafico della CDF con
# il comando lines()


lines(valori_X, CDF_X, type = "s", col = miei_colori[2],
  lwd = 3)

# infine aggiungiamo i punti
# corrispondenti alla densità discreta


points(valori_X[2:5], densita_X[2:5], col = miei_colori[1],
  pch = 16, lwd = 3)
densità uniforme discreta e CDF

Figura 4.1: densità uniforme discreta e CDF

Ad essere precisi, il grafico della \(CDF_X\) non dovrebbe rappresentare i segmenti verticali nei punti di salto (il valore della \(\CDF_X\) è soltanto l’estremo più alto).

Esempio 4.3 Si consideri una variabile aleatoria \(X\) avente densità uniforme continua nell’intervallo \([-2,2]\), ossia, per \(x \in [-2,2]\), \[ p(X =x ) = 1/4.\] Il grafico della sua densità continua e della \(\CDF_X\), ottenuto tramite la formula sopra (nel caso continuo) è rappresentata in figura:

# possibili valori e densità continua
deltax <- 0.01
valori_X <- seq(-3, 3, by = deltax)
densita_X <- valori_X * 0 + (valori_X > -2 &
  valori_X < 2) * 1/4

# plottiamo prima i valori della
# densità

plot(valori_X, densita_X, type = "l", col = miei_colori[1],
  xlab = "valori", ylab = "", ylim = c(0,
    1), xlim = c(-3, 3), lwd = 3)


# per ottenere la funzione di
# ripartizione nei punti valori_X
# usiamo il comando cumsum()
# moltiplicando poi per deltax (per
# approssimare l'integrale come somma
# di Riemann)

CDF_X <- cumsum(densita_X) * deltax


# aggiungiamo quindi con il comando
# lines()


lines(valori_X, CDF_X, type = "l", col = miei_colori[2],
  lwd = 3)
densità uniforme continua  e CDF

Figura 4.2: densità uniforme continua e CDF

Osservando i grafici ottenuti, deduciamo alcune semplici proprietà della \(\CDF\):

  1. vale \(\CDF_X(x) \in [0,1]\), essendo una probabilità.
  2. la funzione \(x \mapsto \CDF_X(x)\) è crescente (ma non strettamente): se \(x < z\), allora \(\CDF_X(x) \le \CDF_X(z)\), per la monotonia della probabilità: ogni volta che \(\cur{X \le x}\) è vero, segue che \(\cur{X \le z}\) è pure vero.
  3. vale \(\CDF_X(-\infty) = 0\) e \(\CDF_X(+\infty)=1\) (nel senso di limiti opportuni): negli esempi si ha addirittura \(\CDF_X(-3)=0\) e \(\CDF_X(3)=1\), ma questo dipende dalle densità considerate.
  4. Nel caso di variabili con densità discreta, la \(\CDF_X\) è una funzione costante a tratti, mentre nel caso di variabili con densità continua, la \(\CDF_X\) è una funzione continua.

Per la funzione \(\SUR\), valgono proprietà analoghe, fatte le opportune considerazioni: in particolare, la funzione è decrescente e vale \(\SUR_X(-\infty) = 1\) mentre \(\SUR_X(+\infty) = 0\).

Esempio 4.4 Si consideri una variabile aleatoria \(X\) con densità esponenziale di parametro \(\lambda>0\). Si trova che \[ \SUR_X(x) = \int_x^\infty \lambda e^{-\lambda z} d z = e^{-\lambda x},\] mentre \[ \SUR_X(x) = 1- e^{-\lambda x}.\]. Nel caso \(\lambda = 1/2\), il grafico della densità, funzione di ripartizione e di sopravvivenza sono tracciati in figura.

deltax <- 0.01
valori_X <- seq(-1, 3, by = deltax)
lambda <- 1/2
# usiamo direttamente i comandi dexp()
# e pexp() per la densità e CDF
# esponeziale

densita_X <- dexp(valori_X, lambda)
CDF_X <- pexp(valori_X, lambda)
SUR_X <- 1 - CDF_X

plot(valori_X, densita_X, type = "l", col = miei_colori[1],
  ylim = c(0, 1), xlab = "valori", ylab = "",
  lwd = 3)
lines(valori_X, CDF_X, col = miei_colori[2],
  lwd = 3, )
lines(valori_X, SUR_X, co = miei_colori[3],
  lwd = 3)

legend("topright", fill = miei_colori[1:3],
  c("densità", "CDF", "SUR"), cex = 0.8)
densità, $\CDF_X$  e $\SUR_X$  di una variabile $X$ con densità esponenziale di parametro $\lambda=1/2$.

Figura 4.3: densità, \(\CDF_X\) e \(\SUR_X\) di una variabile \(X\) con densità esponenziale di parametro \(\lambda=1/2\).

È naturale a questo punto porsi la seguente domanda: possiamo ricostruire la densità di \(X\) (discreta o continua) se disponiamo della \(\CDF_X\)? la risposta è affermativa e basta invertire la (4.1). Nel caso discreto, si trova semplicemente che la densità discreta è non nulla solo nei valori \(x\in \R\) in cui la \(\CDF_X(x)\) ha un salto, e il valore della densità in quel punto è proprio l’ampiezza del salto. Nel caso di densità continua, per invertire la formula \[ \int_{-\infty}^x p(X=z)dz = \CDF_X(x)\] è sufficiente applicare il teorema fondamentale del calcolo integrale, e quindi derivare la \(\CDF_X\) per ottenere la densità: \[ \frac{d}{dx} \CDF_X(x) = p(X=x).\] (nei punti in cui \(\CDF_X\) è derivabile)

Per la \(\SUR_X\), è sufficiente cambiare di segno alle quantità ottenute, ossia intepretare l’ampiezza assoluta dei salti nel caso discreto, mentre, nel caso continuo, si ottiene \[ - \frac{d}{dx} \SUR_X(x) = p(X=x).\]

Remark. Vi sono variabili aleatorie \(X\) né discrete né continue. In tal caso si può ancora mostrare che la conoscenza della \(\CDF_X\) (o la \(\SUR_X\)) determina completamente la legge di \(X\).

4.1.1 Esercizi

Esercizio 4.1 Sia \(X\) una variabile aleatoria reale con densità continua pari, ossia tale che \(p(X=x) = p(X =-x)\) per ogni \(x \in \R\). Mostrare che \(\CDF_X(x) = \SUR_X(-x)\) per ogni \(x \in \R\).

Esercizio 4.2 Tramite il comando \(R\) pbinom() rappresentare graficamente la \(\CDF\) di una variabile \(X\) con densità binomiale di parametri \((10, 1/4)\). Usando il comando phyper() si faccia lo stesso per una densità ipergeometrica (si scelgano a piacere i parametri).

Esercizio 4.3 Può la funzione \(x\mapsto \sin(x)\), \(x \in [0, \pi/2]\) essere la \(\CDF\) di qualche variabile aleatoria?