4.6 Momenti
Supponiamo di dover calcolare il valor medio di una funzione composta \(g(X)\), dove \(X \in \R\) è una variabile aleatoria e \(g:\R \to \R\) è una funzione regolare. Una possibilità potrebbe essere di approssimare \(g\) tramite un polinomio (possiamo pensare ad esempio allo sviluppo di Taylor in un punto): \[ g(x) \sim a_0 + a_1 x + a_2 x^2 + \ldots + a_k x^k\] dove \(a_i \in \R\) sono costanti, e poi sfruttare la linearità del valor medio per approssimare \[ \E{g(X)} \sim a_0 + a_1 \E{X} + a_2 \E{X^2}+ \ldots + a_k \E{X^k}.\] Certamente, bisogna fare attenzione al senso in cui l’approssimazione vale. Il problema è decomposto in due sotto-problemi: 1. determinare un polinomio approssimante per \(g\) (questo problema è del tutto analitico e non riguarda \(X\)) 2. calcolare i valor medi \(\E{X}\), \(\E{X^2}\), …, \(\E{X^k}\), fino al grado massimo \(k\) richiesto dal polinomio ottenuto al punto sopra.
Il vantaggio è evidente soprattutto se è richiesto di calcolare il valor medio per più di una funzione \(g\), perché non serve ripetere il punto \(2\) (supponendo che il grado massimo \(k\) non cambi). Per questa ma anche altre ragioni, i valori \(\E{X}\), \(\E{X^2}\), …, \(\E{X^k}\) sono oggetto di studio particolare nel calcolo delle probabilità e vengono detti momenti di una variabile aleatoria \(X\).
Definizione 4.7 (momenti) Sia \(X \in \R\) una variabile aleatoria. Per ogni \(k \in \N\), si dice momento di ordine \(k\) (o momento \(k\)-esimo) di \(X\) la quantità \[\E {X^k},\] se è ben definita (ricordiamo che si richiede che la serie o l’integrale che definisce \(\E{X^k}\) debba convergere).
Notiamo come al solito che il valor medio dipende comunque dall’informazione \(I\) che si ritiene nota (ma evitiamo qui di esplicitare per semplicità di scrittura).
Esplicitamente, se \(X\) ha densità (discreta o continua) vale \[ \E{X^k} = \begin{cases} \sum_{x \in \R} x^k P(X=x) & \text{se $X$ ha densità discreta,}\\ \int_{x \in \R} x^k p(X=x)d x & \text{se $X$ ha densità continua.} \end{cases}\]
In particolare, la legge di \(X\) determina unicamente i momenti di ogni ordine (se esistono).
Remark. La formula alternativa per la varianza di una variabile aleatoria \(X \in \R\), Proposizione 4.5, afferma che la varianza è scrivibile come combinazione del momento secondo e dal momento primo. Essa può essere anche equivalentemente riscritta come \[ \E{X^2} = \Var{X} + (\E{X})^2,\] fornendo un modo per calcolare il momento secondo (nota la varianza e il momento primo).
Definizione 4.8 (skewness e kurtosi) Data una variabile \(X\), per descrivere la densità in realtà risultano più significativi i momenti della variabile standardizzata \[ X' = (X-\E{X})/\sigma_X.\] In particolare, il suo momento terzo è detto skewness di \(X\) (e indica eventuale asimmetria della densità rispetto alla media) mentre il momento quarto è detto kurtosi.
Per agevolare il calcolo dei momenti, si introduce una funzione ausiliaria, detta funzione generatrice dei momenti. Il vantaggio è che riduce il problema dell’integrazione ad un solo integrale (dipendente da un parametro), mentre i momenti si ricavano effettuando derivate (tipicamente più semplici da calcolare).
Definizione 4.9 (MGF) Data \(X \in \R\) una variabile aleatoria reale, si definisce la sua funzione generatrice dei momenti (in inglese moment generating function, MGF) la funzione \(\operatorname{MGF}_X: \R \to [0, \infty]\), che associa \[ t \mapsto \operatorname{MGF}_X(t) = \E{ e^{tX}}.\]
Per ciascun \(t \in \R\), il valor medio si calcola quindi come \[ \operatorname{MGF}_X(t) = \E{e^{tX}} = \begin{cases} \sum_{x \in \R} e^{tx} P(X=x) & \text{se $X$ ha densità discreta,}\\ \int_{x \in \R} e^{tx} p(X=x)dx & \text{se $X$ ha densità continua.} \end{cases} \tag{4.2}\]
Se per qualche \(t \in \R\) l’integrale o la serie che definiscono il valor medio di \(\E{e^{tX}}\) non convergono, si pone \(\operatorname{MGF}_X(t) =\infty\). In effetti, può accadere che la funzione generatrice dei momenti valga \(\infty\) in molti valori \(t \in \R\), tuttavia almeno per \(t =0\) è finita. Infatti: \[ \operatorname{MGF}_X(0) = \E{ e^{0 \cdot X}} = \E{1} = 1.\] Il vantaggio di calcolare la \(\operatorname{MGF}_X\) rispetto a tutti i momenti è che spesso l’integrale (o la serie) pur dipendendo dal parametro \(t\), si può calcolare con la stessa tecnica per tutti i parametri (mentre spesso integrare o sommare i polinomi \(x^k\) richiede tecniche particolari, come integrazioni per parti).
Remark. Per chi è familiare con il concetto di trasformata di Laplace di una funzione, si può riconoscere nell’integrale (4.2) appunto la trasformata di Laplace della funzione densità continua \(x \mapsto p(X=x)\). Pertanto, se la funzione è tra quelle la cui trasformata di Laplace è nota, si può evitarne il calcolo.
Esempio 4.18 Sia \(X\in \R\) con densità continua esponenziale di parametro \(\lambda>0\). Per calcolare la \(\operatorname{MGF}_X(t)\), basta integrare \[ \int_0^\infty e^{tx} e^{-\lambda x} \lambda dx = \begin{cases} \frac{\lambda}{\lambda-t} & \text{se $t<\lambda$,}\\ \infty & \text{altrimenti.}\end{cases}\] Notiamo in particolare che per infiniti valori la funzione generatrice dei momenti è infinita.
Le seguenti proprietà elementari si mostrano con poco sforzo partendo dalle proprietà dell’esponenziale e del valor medio.
Proposizione 4.10 Siano \(X\), \(Y \in \R\) variabili aleatorie e \(a\), \(b\in \R\) costanti (rispetto all’informazione nota \(I\)). Allora 1. \(\operatorname{MGF}_{aX+b}(t)= e^{tb} \operatorname{MGF}_{X}(at)\) 2. Se \(X\), \(Y\) sono indipendenti, allora \(\operatorname{MGF}_{X+Y}(t) = \operatorname{MGF}_{X}(t)\operatorname{MGF}_{Y}(t)\).
Proof. Per la prima, \[ \operatorname{MGF}_{aX+b}(t)= \E{e^{t(aX+b)}} = \E{e^{tb} e^{(ta)X}} = e^{tb} \operatorname{MGF}_{X}(at).\] Per la seconda, basta ricordare che \(e^{t(X+Y)} = e^{tX}e^{tY}\) e che le variabili \(e^{tX}\), \(e^{tY}\) sono indipendenti (perché ciascuna ottenuta tramite composizione separata di variabili indipendenti). Quindi, \[\E{e^{tX}e^{tY}} = \E{e^{tX}}\E{e^{tY}}.\]
Il seguente teorema definisce il legame tra \(\operatorname{MGF}_X\) e i momenti di \(X\).
Teorema 4.1 Sia \(X \in \R\) tale che \(\operatorname{MGF}_X(t)<\infty\) per ogni \(t \in (-\varepsilon, \varepsilon)\), per qualche \(\varepsilon>0\). Allora, per ogni \(k \in \N\), \(X\) ha momento di ordine \(k\) ben definito e vale \[ \frac{d^k}{d^k t} \operatorname{MGF}_X(0) = \E{X^k}.\]
Per calcolare il momento di ordine \(k\) è quindi sufficiente derivare \(k\) volte la \(\operatorname{MGF}_X(t)\) e successivamente porre \(t=0\).
Proof. Non diamo qui una dimostrazione completamente rigorosa, ma ci limitiamo a mostrare perché la formula per il momento di ordine \(k\) dovrebbe essere appunto quella proposta.
Scrivendo la serie di Taylor per la funzione esponenziale, si trova \[ e^{tx} = \sum_{k=0}^\infty \frac{(tx)^k}{k!} = \sum_{k=0}^\infty x^k \frac{t^k}{k!} ,\] Componendo con \(X\) la funzione \(e^{tx}\), vale allora \[ e^{tX} = \sum_{k=0}^\infty X^k \frac{t^k}{k!}.\] Passando al valor medio, e usando la linearità (anche se si tratta di una serie invece di una somma finita), troviamo che \[ \operatorname{MGF}_X(t) = \E{e^{tX}}= \sum_{k=0}^\infty \E{X^k} \frac{t^k}{k!}.\] Confrontando il membro a destra con però la serie di Taylor (centrata in \(0\)) per la funzione generatrice dei momenti, si trova t\[ \sum_{k=0}^\infty \frac{d^k}{d^k t} \operatorname{MGF}_X(0) \frac{t^k}{k!} = \sum_{k=0}^\infty \E{X^k} \frac{t^k}{k!},\] da cui la tesi.
Remark. Si può estendere il concetto di momento a variabili vettoriali \(X \in \R^d\), considerando prodotti delle marginali. Ad esempio, il momento primo corrisponde al vettore dei valor medi, il vettore secondo alla collezione dei valor medi \[ \E{X_i X_j} \quad \text{per $i, j \in \cur{1, \ldots, d}$ (anche $i=j$)}\] e il momento terzo invece \[ \E{X_i X_j X_j} \quad \text{per $i, j,k \in \cur{1, \ldots, d}$.}\] In questo caso, la funzione generatrice dei momenti diventa una funzione di \(d\) variabili \((t_1, t_2, \ldots, t_d)\) (oppure di una singola variabile vettoriale \(t\in \R^d\)), ed è definita come \[ \operatorname{MGF}_{X}(t) = \E{\exp \bra{ \sum_{i=1}^d t_i X_i}}.\] Il legame tra questa funzione e i momenti è dato dalle derivate parziali valutate in \(t=0\).
4.6.1 Esercizi
Esercizio 4.15 Calcolare la skewness e la curtosi di una variabile continua con densità esponenziale di parametro \(\lambda\). Plottare tali valori come funzione di \(\lambda>0\).
Esercizio 4.16 Calcolare la \(\operatorname{MGF}_X\) per \(X\) uniforme continua su \([a,b]\) e determinarne skweness e curtosi.
Esercizio 4.17 Calcolare \(\operatorname{MGF}_X\) di una variabile \(X\) avente densità discreta binomiale di parametri \((n,p)\) (suggerimento: scrivere \(X\) come somma \(n\) variabili Bernoulli indipendenti).