4.6 Momenti

Supponiamo di dover calcolare il valor medio di una funzione composta $g(X)$, dove $X \in \R$ è una variabile aleatoria e $g:\R \to \R$ è una funzione regolare. Una possibilità potrebbe essere di approssimare $g$ tramite un polinomio (possiamo pensare ad esempio allo sviluppo di Taylor in un punto): \[ g(x) \sim a_0 + a_1 x + a_2 x^2 + \ldots + a_k x^k\] dove $a_i \in \R$ sono costanti, e poi sfruttare la linearità del valor medio per approssimare \[ \E{g(X)} \sim a_0 + a_1 \E{X} + a_2 \E{X^2}+ \ldots + a_k \E{X^k}.\] Certamente, bisogna fare attenzione al senso in cui l’approssimazione vale. Il problema è decomposto in due sotto-problemi: 1. determinare un polinomio approssimante per $g$ (questo problema è del tutto analitico e non riguarda $X$) 2. calcolare i valor medi $\E{X}$, $\E{X^2}$, …, $\E{X^k}$, fino al grado massimo $k$ richiesto dal polinomio ottenuto al punto sopra.

Il vantaggio è evidente soprattutto se è richiesto di calcolare il valor medio per più di una funzione $g$, perché non serve ripetere il punto $2$ (supponendo che il grado massimo $k$ non cambi). Per questa ma anche altre ragioni, i valori $\E{X}$, $\E{X^2}$, …, $\E{X^k}$ sono oggetto di studio particolare nel calcolo delle probabilità e vengono detti momenti di una variabile aleatoria $X$.

Definizione 4.7 (momenti) Sia $X \in \R$ una variabile aleatoria. Per ogni $k \in \N$, si dice momento di ordine $k$ (o momento $k$-esimo) di $X$ la quantità \[\E {X^k},\] se è ben definita (ricordiamo che si richiede che la serie o l’integrale che definisce $\E{X^k}$ debba convergere).

Notiamo come al solito che il valor medio dipende comunque dall’informazione $I$ che si ritiene nota (ma evitiamo qui di esplicitare per semplicità di scrittura).

Esplicitamente, se $X$ ha densità (discreta o continua) vale \[ \E{X^k} = \begin{cases} \sum_{x \in \R} x^k P(X=x) & \text{se $X$ ha densità discreta,}\\ \int_{x \in \R} x^k p(X=x)d x & \text{se $X$ ha densità continua.} \end{cases}\]

In particolare, la legge di $X$ determina unicamente i momenti di ogni ordine (se esistono).

Remark. La formula alternativa per la varianza di una variabile aleatoria $X \in \R$, Proposizione 4.5, afferma che la varianza è scrivibile come combinazione del momento secondo e dal momento primo. Essa può essere anche equivalentemente riscritta come \[ \E{X^2} = \Var{X} + (\E{X})^2,\] fornendo un modo per calcolare il momento secondo (nota la varianza e il momento primo).

Definizione 4.8 (skewness e kurtosi) Data una variabile $X$, per descrivere la densità in realtà risultano più significativi i momenti della variabile standardizzata \[ X' = (X-\E{X})/\sigma_X.\] In particolare, il suo momento terzo è detto skewness di $X$ (e indica eventuale asimmetria della densità rispetto alla media) mentre il momento quarto è detto kurtosi.

Per agevolare il calcolo dei momenti, si introduce una funzione ausiliaria, detta funzione generatrice dei momenti. Il vantaggio è che riduce il problema dell’integrazione ad un solo integrale (dipendente da un parametro), mentre i momenti si ricavano effettuando derivate (tipicamente più semplici da calcolare).

Definizione 4.9 (MGF) Data $X \in \R$ una variabile aleatoria reale, si definisce la sua funzione generatrice dei momenti (in inglese moment generating function, MGF) la funzione $\operatorname{MGF}_X: \R \to [0, \infty]$, che associa \[ t \mapsto \operatorname{MGF}_X(t) = \E{ e^{tX}}.\]

Per ciascun $t \in \R$, il valor medio si calcola quindi come \[ \operatorname{MGF}_X(t) = \E{e^{tX}} = \begin{cases} \sum_{x \in \R} e^{tx} P(X=x) & \text{se $X$ ha densità discreta,}\\ \int_{x \in \R} e^{tx} p(X=x)dx & \text{se $X$ ha densità continua.} \end{cases} \tag{4.2}\]

Se per qualche $t \in \R$ l’integrale o la serie che definiscono il valor medio di $\E{e^{tX}}$ non convergono, si pone $\operatorname{MGF}_X(t) =\infty$. In effetti, può accadere che la funzione generatrice dei momenti valga $\infty$ in molti valori $t \in \R$, tuttavia almeno per $t =0$ è finita. Infatti: \[ \operatorname{MGF}_X(0) = \E{ e^{0 \cdot X}} = \E{1} = 1.\] Il vantaggio di calcolare la $\operatorname{MGF}_X$ rispetto a tutti i momenti è che spesso l’integrale (o la serie) pur dipendendo dal parametro $t$, si può calcolare con la stessa tecnica per tutti i parametri (mentre spesso integrare o sommare i polinomi $x^k$ richiede tecniche particolari, come integrazioni per parti).

Remark. Per chi è familiare con il concetto di trasformata di Laplace di una funzione, si può riconoscere nell’integrale (4.2) appunto la trasformata di Laplace della funzione densità continua $x \mapsto p(X=x)$. Pertanto, se la funzione è tra quelle la cui trasformata di Laplace è nota, si può evitarne il calcolo.

Esempio 4.18 Sia $X\in \R$ con densità continua esponenziale di parametro $\lambda>0$. Per calcolare la $\operatorname{MGF}_X(t)$, basta integrare \[ \int_0^\infty e^{tx} e^{-\lambda x} \lambda dx = \begin{cases} \frac{\lambda}{\lambda-t} & \text{se $t<\lambda$,}\\ \infty & \text{altrimenti.}\end{cases}\] Notiamo in particolare che per infiniti valori la funzione generatrice dei momenti è infinita.

Le seguenti proprietà elementari si mostrano con poco sforzo partendo dalle proprietà dell’esponenziale e del valor medio.

Proposizione 4.10 Siano $X$, $Y \in \R$ variabili aleatorie e $a$, $b\in \R$ costanti (rispetto all’informazione nota $I$). Allora 1. $\operatorname{MGF}_{aX+b}(t)= e^{tb} \operatorname{MGF}_{X}(at)$ 2. Se $X$, $Y$ sono indipendenti, allora $\operatorname{MGF}_{X+Y}(t) = \operatorname{MGF}_{X}(t)\operatorname{MGF}_{Y}(t)$.

Proof. Per la prima, \[ \operatorname{MGF}_{aX+b}(t)= \E{e^{t(aX+b)}} = \E{e^{tb} e^{(ta)X}} = e^{tb} \operatorname{MGF}_{X}(at).\] Per la seconda, basta ricordare che $e^{t(X+Y)} = e^{tX}e^{tY}$ e che le variabili $e^{tX}$, $e^{tY}$ sono indipendenti (perché ciascuna ottenuta tramite composizione separata di variabili indipendenti). Quindi, \[\E{e^{tX}e^{tY}} = \E{e^{tX}}\E{e^{tY}}.\]

Il seguente teorema definisce il legame tra $\operatorname{MGF}_X$ e i momenti di $X$.

Teorema 4.1 Sia $X \in \R$ tale che $\operatorname{MGF}_X(t)<\infty$ per ogni $t \in (-\varepsilon, \varepsilon)$, per qualche $\varepsilon>0$. Allora, per ogni $k \in \N$, $X$ ha momento di ordine $k$ ben definito e vale \[ \frac{d^k}{d^k t} \operatorname{MGF}_X(0) = \E{X^k}.\]

Per calcolare il momento di ordine $k$ è quindi sufficiente derivare $k$ volte la $\operatorname{MGF}_X(t)$ e successivamente porre $t=0$.

Proof. Non diamo qui una dimostrazione completamente rigorosa, ma ci limitiamo a mostrare perché la formula per il momento di ordine $k$ dovrebbe essere appunto quella proposta.

Scrivendo la serie di Taylor per la funzione esponenziale, si trova \[ e^{tx} = \sum_{k=0}^\infty \frac{(tx)^k}{k!} = \sum_{k=0}^\infty x^k \frac{t^k}{k!} ,\] Componendo con $X$ la funzione $e^{tx}$, vale allora \[ e^{tX} = \sum_{k=0}^\infty X^k \frac{t^k}{k!}.\] Passando al valor medio, e usando la linearità (anche se si tratta di una serie invece di una somma finita), troviamo che \[ \operatorname{MGF}_X(t) = \E{e^{tX}}= \sum_{k=0}^\infty \E{X^k} \frac{t^k}{k!}.\] Confrontando il membro a destra con però la serie di Taylor (centrata in $0$) per la funzione generatrice dei momenti, si trova t\[ \sum_{k=0}^\infty \frac{d^k}{d^k t} \operatorname{MGF}_X(0) \frac{t^k}{k!} = \sum_{k=0}^\infty \E{X^k} \frac{t^k}{k!},\] da cui la tesi.

Remark. Si può estendere il concetto di momento a variabili vettoriali $X \in \R^d$, considerando prodotti delle marginali. Ad esempio, il momento primo corrisponde al vettore dei valor medi, il vettore secondo alla collezione dei valor medi \[ \E{X_i X_j} \quad \text{per $i, j \in \cur{1, \ldots, d}$ (anche $i=j$)}\] e il momento terzo invece \[ \E{X_i X_j X_j} \quad \text{per $i, j,k \in \cur{1, \ldots, d}$.}\] In questo caso, la funzione generatrice dei momenti diventa una funzione di $d$ variabili $(t_1, t_2, \ldots, t_d)$ (oppure di una singola variabile vettoriale $t\in \R^d$), ed è definita come \[ \operatorname{MGF}_{X}(t) = \E{\exp \bra{ \sum_{i=1}^d t_i X_i}}.\] Il legame tra questa funzione e i momenti è dato dalle derivate parziali valutate in $t=0$.

4.6.1 Esercizi

Esercizio 4.15 Calcolare la skewness e la curtosi di una variabile continua con densità esponenziale di parametro $\lambda$. Plottare tali valori come funzione di $\lambda>0$.

Esercizio 4.16 Calcolare la $\operatorname{MGF}_X$ per $X$ uniforme continua su $[a,b]$ e determinarne skweness e curtosi.

Esercizio 4.17 Calcolare $\operatorname{MGF}_X$ di una variabile $X$ avente densità discreta binomiale di parametri $(n,p)$ (suggerimento: scrivere $X$ come somma $n$ variabili Bernoulli indipendenti).