4.8 Entropia

Concludiamo questo capitolo con un indicatore leggermente diverso, ma estremamente importante in molti ambiti (dalla fisica alla teoria dell’informazione): si tratta dell’entropia di una variabile aleatoria \(X\), o più precisamente della densità (discreta o continua) di \(X\) rispetto ad una informazione nota \(I\).

Prima di darne la definizione formale, premettiamo che lo scopo è di introdurre una misura del grado di “ignoranza” del robot riguardo a quale delle alternative associate alla variabile \(X\) sia in effetti quella vera. Maggiore sarà tale quantità, detta appunto entropia, maggiore sarà l’ignoranza del robot. Spesso si preferisce usare il termine “assenza di informazione” piuttosto che “ignoranza”, pertanto ragionando nel verso opposto avremo che, minore sarà l’entropia, maggiore sarà invece la “quantità di informazione” che il robot dispone riguardo alle alternative associate ad \(X\).

È chiaro che vi saranno diverse quantità che rappresentato l’intuizione sopra descritta: si può tuttavia argomentare che l’unica quantità che soddisfa determinate “regole di calcolo” naturali (che tuttavia qui non vedremo) è data dalla seguente espressione: \[ H(X) = \begin{cases} -\sum_{x \in E} P(X= x) \log( P(X=x)) & \text{ se $X \in E$ ha densità discreta,}\\ -\int_{\R^d} p(X= x) \log( p(X=x)) d x & \text{ se $X\in \R^d$ ha densità continua.}\end{cases}\]

Come al solito, non evidenziamo l’informazione nota \(I\) rispetto alla quale è sempre intesa la densità, e quindi l’entropia di \(X\). La scelta di base del logaritmo, specie nel caso discreto, dipende dai vari ambiti (noi useremo la base naturale, in altri casi è preferibile la base \(2\)).

Per \(z \in [0,1]\), la funzione \(-z \log (z)\) è sempre positiva (e nulla solo se \(z =0\) oppure \(z=1\)). Ne segue che, nel caso discreto, \(H(X) \ge 0\). In particolare, se la densità discreta assume solo valore \(0\) oppure \(1\) (in altre parole \(X\) è costante rispetto all’informazione \(I\)), l’entropia \(H(X)\) è minima – che ben rappresenta il fatto che l’ignoranza sia minima, in quanto il robot dispone una conoscenza certa della \(X\).

Nel caso continuo invece l’entropia può anche essere negativa (perché la densità continua può essere maggiore di \(1\)).

deltaz <- 0.001
z <- seq(0, 2, by = deltaz)


plot(z, -z * log(z), ylab = "-z log(z)",
  type = "l", col = miei_colori[2], lwd = 3)
lines(z, 0 * z, type = "l", col = "grey")
points(c(0, 1), c(0, 0), col = miei_colori[2],
  pch = 19)
grafico della funzione $-z\log(z)$.

Figura 4.6: grafico della funzione \(-z\log(z)\).

Vediamo come in alcuni esempi fondamentali l’entropia si adegua bene all’idea di misura di “assenza di informazione” (o ignoranza del robot).

Esempio 4.19 (Bernoulli) Nel caso di \(X \in \cur{0,1}\) con legge Bernoulli di parametro \(p \in [0,1]\), l’entropia è data da \[ H(X) = -(1-p)\log(1-p) - p \log (p).\] Essa è detta anche entropia binaria e indicata \(H(p)\). Possiamo visualizzare la quantità graficamente, al variare di \(p\) in figura. Vediamo che è minima (nulla) ai valori estremi \(p=0\), \(p=1\) (perché in tal caso il robot conosce \(X\) che è costante \(0\) oppure \(1\)), mentre è massima nel caso \(p=1/2\), ossia quando le due alternative hanno uguale probabilità.

deltap <- 0.001
p <- seq(0, 1, by = deltap)

H_p <- -(1 - p) * log(1 - p) - p * log(p)

plot(p, H_p, type = "l", xlab = "p", ylab = "H(p)",
  lwd = 3, col = miei_colori[2])
Entropia di una densità Bernoulli al variare del parametro $p$

Figura 4.7: Entropia di una densità Bernoulli al variare del parametro \(p\)

Esempio 4.20 Possiamo calcolare l’entropia di una variabile uniforme, sia nel caso discreto (su \(n\) valori) che nel caso continuo (su un intervallo \([a,b]\)). Nel primo caso (discreto) troviamo \[ H( X \text{ uniforme su $n$ valori}) = -\sum_{i=1}^n \log\bra{ \frac 1 n } \frac 1 n = \log(n),\] mentre nel secondo caso (continuo) troviamo \[ H(X \text{ uniforme continua su $[a,b]$}) = - \int_a^b \log\bra{ \frac 1 {b-a}} \frac 1 {b-a} dx = \log(b-a).\] Troviamo quindi che \(H(X)\) è in entrambi i casi data dal logaritmo della “ampiezza” dei possibili valori. In particolare, più grande è tale insieme, maggiore è l’entropia, in accordo con il fatto che il robot è in tal caso più ignorante. Notiamo anche che se \(b-a<1\), allora l’entropia diventa negativa (cosa possibile nel caso continuo, ma non nel caso discreto).

Oltre ad essere una quantità utile di per sé, l’entropia ha un ruolo importante nel determinare densità (discrete o continue) per variabili aleatorie \(X\) qualora l’informazione fornita in un problema non sia sufficiente a calcolarle direttamente. È possibile infatti introdurre un principio di massima entropia, che estende il principio di indifferenza di Laplace (quello secondo il quale date \(n\) alternative indistinguibili, si deve assegnare densità uniforme discreta). Il principio afferma che il robot, qualora non possa determinare unicamente la densità di \(X\), ma abbia identificato un insieme \(\mathcal{D}\) di possibili densità che rispettano l’informazione di cui egli dispone (di solito l’informazione iniziale del problema), allora egli sceglierà l’unica densità per cui \(H(X)\) sia massima tra quelle in \(\mathcal{D}\). La ragione sottostante è che in questo modo rappresenta il più efficacemente possibile il suo stato di “ignoranza”, pur comunque ottenendo una certa densità in modo da ottenere una possibile soluzione del problema.

Tale principio, estremamente generale, si concretizza poi in casi speciali in cui determinate densità si possono mostrare essere di massima entropia per determinati insiemi \(\mathcal{D}\). Il fatto che una densità sia di massima entropia ne giustifica ulteriormente l’uso nella pratica, magari già affermato per altre ragioni.

Esempio 4.21 (densità uniforme come massima entropia) Si può dimostrare che, al variare di tutte le densità discrete di variabili aleatorie \(X\) su un insieme \(E\) finito contenente \(n\) elementi (quindi \(X\) assume al più \(n\) valori), l’entropia \(H(X)\) è massima se e solo se \(X\) è uniforme. Similmente fissato un intervallo \([a,b]\), nel caso di variabili aleatorie \(X\) con densità continua su un intervallo \((a,b)\) (ossia tali che \(P(a<X<b )=1\)), si può mostrare che l’entropia \(H(X)\) è massima se e solo se \(X\) è uniforme continua (più formalmente, in questo caso abbiamo che \(\mathcal{D} = \cur{ \text{"densità continue $p(X=x)$ nulle fuori da $(a,b)$"}}\)).

Esempio 4.22 (densita esponenziale come massima entropia) Fissato \(m>0\), si può considerare l’insieme \(\mathcal{D}\) delle densità continue \(p(X=x)\) nulle fuori da \([0, \infty)\) e di valor medio fissato \[ \int _0^\infty x p(X=x) d x = m.\] Questa classe interviene quando l’informazione di cui il robot dispone è che una variabile aleatoria \(X\) è continua, positiva ed è noto il suo valor medio \(m\). Sulla base di questa informazione, l’entropia è massima nel caso di una densità continua esponenziale di parametro \(\lambda = m^{-1}\) (in modo che il valor medio sia appunto \(m\)).

Esempio 4.23 (densità geometrica come massima entropia) L’analogo discreto dell’esempio sopra consiste nel sapere che una variabile aleatoria a valori in \(\N\) ha valor medio \(m\). L’insieme \(\mathcal{D}\) consiste delle densità discrete \(P(X=k)\), per \(X \in \N\) e di valor medio fissato \[ \sum_{k =0}^\infty k P(X=k) = m.\] In questo caso, l’entropia è massima per una variabile con densità discreta geometrica, ossia tale che \(P(X=k) \propto (1-p)^k\)$, per un parametro \(p \in [0,1]\) (ovviamente si può anche porre direttamente \(q=1-p\), ma tradizionalmente si parametrizza in questo modo). Si può calcolare esplicitamente \[ P(X=k) = p (1-p)^k\] e inoltre si calcola (ad esempio a partire dalla \(\operatorname{MGF}_X\) che si calcola esplicitamente), \[ \E{X} = \frac{1-p}{p},\] da cui \(p = 1/(m+1)\) e quindi si può anche scrivere \[ P(X=k) = \frac{1}{m+1} \bra{ \frac m {m+1}}^k.\]

Remark. L’entropia qui introdotta ha applicazioni in vari ambiti applicati, e per prima nella teoria dell’informazione, ma anche in fisica (anche se intepretata in modo leggermente diverso). Una applicazione importante in statistica e apprendimento automatico riguarda anche l’uso di distanze tra densità di probabilità basate sull’entropia, come la divergenza di Kullback-Leibler o la sua variante simmetrica, la divergenza di Jensen-Shannon, che tuttavia non tratteremo.

4.8.1 Esercizi

Esercizio 4.20 Calcolare l’entropia di una variabile con densità continua esponenziale di parametro \(\lambda\), e rappresentarla graficamente al variare del parametro.

Esercizio 4.21 In molti casi si può intepretare l’entropia come una ulteriore misura di “dispersione” della densità di \(X\), simile alla varianza. Trovare però degli esempi di densità (ad esempio discrete) la cui entropia sia molto bassa (ossia \(<1/n\)) ma la varianza sia molto grande (diciamo \(>n\)). (Suggerimento: l’entropia nel caso discreto non dipende dagli specifici valori che la variabile può assumere, ma solo dalla sua densità)