3.7 Reti bayesiane
Finora abbiamo apprezzato come le variabili aleatorie permettano di gestire sistemi di alternative, anche infiniti, con una notazione compatta e naturale, anche quando si effettuano operazioni tra di esse. Tuttavia, confrontando con l’approccio di calcolo delle probabilità tramite eventi e sistemi di alternative, sarebbe utile disporre di una rappresentazione grafica, simile a quella dei diagrammi ad albero. Ovviamente, nel caso di variabili aleatorie con pochi valori è comunque possibile usare i diagrammi ad albero introducendo le alternative associate a ciascuna variabile.
Il problema sorge quando si vogliono studiare variabili che assumono infiniti valori e averne una rappresentazione grafica utile per scriverne le densità (in generale, ossia congiunte, marginali e condizionate). Una soluzione è fornita dai diagrammi noti come reti Bayesiane, che definiamo in questa sezione.
Dovendo rappresentare un diagramma associato a \(k\) variabili, \(X\), \(Y\), \(Z\) ecc., prima di tutto si fissa un ordine tra le variabili (spesso suggerito dalla struttura del problema che si sta esaminando), che corrisponde grosso modo all’ordine in cui i sistemi di alternative vengono aggiunti nella costruzione del grafo ad albero. Per facilitare la notazione, indichiamo con \(X_1\), \(X_2\), … \(X_k\) le variabili così ordinate. Il diagramma, che è un grafo orientato su \(k\) nodi corrispondenti alle \(k\) variabili, viene costruito in \(k\) passi: nel primo passo si introduce solamente il nodo corrispondente alla variabile \(X_1\); nel passo \(i\)-esimo, si introduce il nodo corrispondente alla variabile \(X_i\), e si considera la densità di \(X_i\) (ragioniamo nel caso discreto, per semplicità) condizionata a tutte le variabili già inserite (quindi \(X_1\), … \(X_{i-1}\)), \[ P(X_i = x_i | I, X_{i-1}=x_{i-1}, \ldots, X_{1}=x_{1}).\] Si individua un sottoinsieme (più piccolo possibile) \(J \subseteq \cur{1, \ldots, i-1}\) tale che la densità sopra dipenda solo dalle variabili \((X_{j})_{j \in J}\), ossia, per ogni \(x_1, \ldots, x_i\), valga \[ P(X_i = x_i | I, X_{i-1}=x_{i-1}, \ldots, X_{1}=x_{1}) = P(X_i =x_i| I, X_j =x_j \text{ per ogni $j \in J$}).\] A questo punto si inseriscono gli archi orientati (frecce) da ciascun nodo corrispondente alle variabili \(X_j\), \(j \in J\), verso il nodo corrispondente ad \(X_i\). Si ripete la procedura con il passo successivo (fino a \(i=n\)).
(#exm:rete_bayes_lambda_T) Si consideri una variabile aleatoria \(\Lambda\) tale che, condizionatamente ad essa, le variabili \(T_1\), …, \(T_k\) sono indipendenti (un esempio concreto è \(\Lambda= \lambda\) individua il parametro delle variabili \(T_i\) che hanno legge esponenziale). La densità congiunta ha la forma \[ P(\Lambda, T_1, T_2, T_3, T_4) = P(\Lambda) P(T_1|\Lambda) P(T_2|\Lambda) P(T_3|\Lambda)P(T_4|\Lambda).\] La rete bayesiana costruita inserendo prima la variabile \(\Lambda\) e poi le rimanenti è rappresentata in figura.
Esempio 3.22 Si considerino \(k\) variabili \(X_1\), …, \(X_k\) indipendenti tra loro (rispetto all’informazione iniziale) e sia \(Y = g(X_1, \ldots, X_k)\) (ad esempio \(Y = X_1+\ldots+X_k\) nel caso di variabili a valori in \(\R\)). La rete bayesiana è rappresentata in figura.
Il grafo così ottenuto è privo di cicli (ossia percorrendo un qualsiasi cammino seguendo gli archi con la loro orientazione non si torna mai al punto di partenza). Si può pensare ad essa come ad una sorta di “albero genealogico” delle variabili aleatorie, in cui ogni variabile ha dei “genitori”, ossia quelle corrispondenti ai nodi che puntano direttamente ad esso, e dei “figli”, ossia quelle corrispondenti ai nodi cui punta direttamente.
Seguendo la costruzione della rete bayesiana, è quindi possibile ricavare da essa seguente formula per la “struttura” della legge congiunta (supponendo tutte le variabili discrete) \[ P(X_1=x_1, \ldots X_k= x_k|I) = \prod_{i=1}^k P(X_i =x_i | I, X_j=x_j \text{ per ogni $X_j$ "genitore" di $i$}).\]
Più in generale, si può pensare che ogni variabile abbia degli “antenati”, ossia tutti i nodi da cui parte un cammino (che segua le frecce) che termina nella variabile, e una “discendenza”, data da tutti i nodi invece che si ottengono seguendo un cammino partendo da esso (sempre seguendo le frecce).
Anche se non sono direttamente collegate da un arco, due variabili in una rete bayesiana possono essere non indipendenti (nel senso probabilistico) e in generale lo sono se una è nella discendenza dell’altra. Tuttavia, per ciascuna componente connessa del grafo, si può definire la variabile congiunta associata ai nodi della componente. Le variabili così ottenute sono tra loro indipendenti (rispetto all’informazione nota \(I\)).
(#exm:rete_bayesiana_X_gX) Dalla rete bayesiana in figura si deduce che le variabili congiunte \(Y_1 = (X_1,X_2,X_3)\) e \(Y_2 =(X_4,X_5)\) sono indipendenti. Come conseguenza, ciascuna delle \(X_1\), \(X_2\), \(X_3\) è indipendente da \(X_4\) oppure da \(X_5\). Questo si può osservare direttamente dalla densità congiunta (supponiamo per semplicità che siano discrete), che dalla rete si deduce essere della forma \[ \begin{split}& P(X_1=x_1, X_2=x_2, X_3=x_3, X_4=x_4, X_5=x_5) \\ & = P(X_1= x_1) P(X_2 = x_2 | X_1= x_1) P(X_3=x_3|X_1=x_1, X_2=x_2) \cdot \\ & \quad \cdot P(X_4=x_4)P(X_5=x_5|X_4=x_4).\end{split}\]
In generale, se arriva nuova informazione, la rete andrebbe ricostruita, ma vi è una eccezione importante, ossia quando si condiziona ulteriormente ad una informazione del tipo \[ \cur{ X_j = x_j}_{i \in J}\] per qualche sottoinsieme di variabili9. Per costruire la rete bayesiana associata alla nuova informazione, è sufficiente rimuovere dal grafo i nodi corrispondenti alle variabili \(X_j\), e tutti gli archi da essi uscenti (che puntano ai “figli” di \(X_j\)). Gli archi entranti in ciascun nodo corrispondente ad \(X_j\) invece vanno sostituiti con archi che collegano tra loro tutti i nodi da cui partivano (ossia i “genitori” di \(X_j\)), orientandoli secondo l’ordinamento fissato sulle variabili (questo serve anche a evitare che vi siano cicli nella rete bayesiana). Dopo questa trasformazione, possiamo ricordare che a ciascuna componente connessa corrisponde una variabile congiunta, e che le variabili associate a componenti diverse sono indipendenti (rispetto alla informazione \(I\) e \(\cur{ X_j = x_j}_{i \in J}\)).
Esempio 3.24 Si consideri invece la rete Bayesiana dell’esempio @ref(ex:rete_bayesiana_X_gX). Condizionando rispetto ad \(Y=g(X_1, X_2, X_3)\), per ottenere la nuova rete dobbiamo collegare tra loro tutti i nodi dei “genitori” di \(Y\), ossia \(X_1\), \(X_2\), \(X_3\) (lo facciamo nell’ordine naturale per evitare cicli). Intuitivamente è chiaro che, se conosciamo \(Y\), ad esempio nel caso \(Y = X_1+X_2+X_3\), le variabili saranno tutt’altro che indipendenti.
Esempio 3.25 Si consideri la rete bayesiana rappresentata in figura. Condizionando rispetto ad \(Y\), si ottiene che \(X\) e \(Z\) sono indipendenti. Rivedremo nel Capitolo 6 questa rete come un semplice esempio di catena di Markov.
A partire da una rete bayesiana, è quindi possibile ottenere la rete condizionata all’informazione, \(\cur{X_j = x_j}_{j \in J}\), e quindi la densità congiunta delle variabili rimanenti.