2.8 Indipendenza probabilistica
Nella formula di Bayes vi è una certa simmetria, nel senso che il ruolo di \(A\) e \(B\) può essere scambiato. Per metterla di più in evidenza, notiamo che dividendo per il prodotto \(P(A)P(B)\) (assumendo che sia positivo) l’equazione (2.2), otteniamo \[ \frac{ P(A | B )}{P(A)} = \frac{P(A, B)}{P(A)P(B)} = \frac{ P(B | A )}{P(B)}. \] (evitiamo per semplicità di scrivere \(I\)). In particolare, se scambiamo \(A\) con \(B\) il rapporto che va a moltiplicare la probabilità a priori nella formula di Bayes non cambia. Qualitativamente, \(A\) è un indizio a favore della validità di \(B\) (ossia il rapporto è maggiore di \(1\)) se e solo se \(B\) lo è per \(A\), e analogamente se il rapporto è minore di \(1\). Se il rapporto è proprio uguale ad \(1\) significa che il grado di fiducia della validità di \(A\), pur sapendo l’informazione aggiuntiva \(B\), non cambia (rispetto a non sapere \(B\)). Tale concetto prende il nome di indipendenza probabilistica.
Definizione 2.7 (indipendenza, caso di due eventi) Due affermazioni \(A\), \(B\) si dicono indipendenti (condizionatamente all’informazione nota \(I\)) se \[ P(A| B,I) = P(A | I ) \quad \text{oppure} \quad P(B| A,I) = P(B| I ),\] oppure ancora \[ P(A, B|I) = P(A|I) P(B|I). \]
Il vantaggio dell’ultima identità è che non si divide per \(P(A|I)\) o \(P(B|I)\), quindi non serve l’ipotesi che queste quantità siano non nulle. È certamente anche più semplice da ricordare: si tratta di una regola del prodotto “semplificata”. Sebbene l’indipendenza sia una condizione simmetrica, spesso si dice che \(A\) è indipendente da \(B\) (o viceversa), ma il significato rimane lo stesso.
Remark. Un errore ricorrente è di confondere l’incompatibilità tra due affermazioni con l’indipendenza. Si tratta di due concetti estremamente diversi, anzi è facile vedere che se due affermazioni (non trascurabili) sono incompatibili, allora il rapporto \(P(A|B)/P(A)\) è nullo.
Osserviamo che se \(A\), \(B\) sono indipendenti (rispetto ad \(I\), che omettiamo), lo sono anche “non \(A\)” da \(B\), perché \[ P( \text{non $A$} | B) = 1- P(A | B) = 1 - P(A) = P( \text{non $A$}). \] Sfruttando poi la simmetria dell’indipendenza segue che anche “non \(A\)” è indipendente da “non \(B\)” e pure \(A\) da “non \(B\)”.
Veniamo ora all’esempio fondamentale di indipendenza, ossia il modello delle estrazioni con rimpiazzo. Informiamo il robot che vi è la solita urna con \(N\) palline di cui \(R\) rosse e \(B\) blu, dove \(N\), \(R\) e \(B\) sono parametri noti. Stavolta, dopo la prima estrazione, la pallina viene osservata e rimessa all’interno dell’urna. Dato che l’operazione è quindi cambiata in questo modo, come calcolare la probabilità di un evento relativo ad una seconda estrazione, ad esempio \(R^2\), sapendo \(R^1\)? Il robot potrebbe immaginare molte situazioni in cui una prima estrazione rossa favorisce una seconda estrazione rossa (ad esempio, viene rimessa in alto e chi estrae preferisce estrarre dall’alto), ma anche altrettante in cui una seconda estrazione rossa è sfavorita. Facendo appello alla razionalità del robot, l’unica conclusione ragionevole è che, pur sapendo \(R^1\), nella seconda estrazione si ha un’urna praticamente identica alla situazione iniziale, con lo stesso numero di palline rosse e blu, e pertanto il robot pone \[ P(R^2 | R^1 ) = \frac{R}{N}.\] Similmente, nel caso condizionato a \(B^1\), \[ P(R^2 | B^1 ) = \frac{R}{N}.\] Completando allora il diagramma ad albero con queste probabilità, si trova che \[P(R^2|\Omega) = \frac{R}{N}\cdot \frac{R}{N} + \frac{B}{N}\cdot \frac{R}{N} = \frac{R}{N},\] ossia \(P(R^2|R^1) = P(R^2)\) e quindi \(R^1\) ed \(R^2\) sono indipendenti (rispetto all’informazione iniziale). Per quanto detto sopra, segue che ogni evento relativo alla prima estrazione (\(R^1\), \(B^1\)) è indipendente da ogni evento relativo alla seconda (\(R^2\), \(B^2\)). Si dice pertanto che le due estrazioni sono indipendenti.
Remark. L’indipendenza probabilistica è quindi un’ipotesi che viene inserita, essenzialmente perché non si riesce a proporre di meglio. Se il robot fosse informato che chi estrae ha qualche preferenza, ad esempio tende a ripescare l’ultima pallina estratta, dovrebbe abbandonare l’assunzione di indipendenza. Per molti aspetti, sopratutto matematici e di semplicità di calcolo, l’indipendenza è utile, ma forse tradizionalmente viene posta troppa attenzione su questo concetto, dando l’impressione che senza indipendenza non si possa fare molto. Ma in realtà è vero l’opposto: l’apprendimento dalle osservazioni non potrebbe avere luogo se vi fosse solo indipendenza, perché la formula di Bayes darebbe sempre che le probabilità a priori non cambiano mai!
Tornando alle estrazioni, come può ragionare il robot alla terza (avendo rimesso nell’urna anche la seconda pallina estratta)? È naturale imporre che, qualsiasi informazione \(J\) esso ottenga dalle prime due estrazioni (ad esempio \(J = (R^1, R^2)\)), si avrà comunque che \[ P(R^3 | J) = \frac{R}{N}.\] Possiamo allora costruire il diagramma ad albero e ottenere con semplici calcoli che, anche in questo caso, \[ P(R^3 ) = \frac R N,\] (avendo omesso di indicare l’informazione iniziale \(\Omega\)). Pertanto, qualsiasi informazione sulle prime due estrazioni non cambia il grado di fiducia sulla terza (lo stesso discorso vale anche per \(B^3\)). Si può anche mostrare che, se il robot acquisisce dell’informazione relativa a due qualsiasi estrazioni, la probabilità di un evento relativo alla rimanente estrazione (delle prime tre) non cambia. Ad esempio, \[ P(R^1 | B^2, R^3) = \frac{R}{N} = P(R^1).\] Inoltre, usando la regola del prodotto, otteniamo che \[ P(R^1, B^2, R^3) = P(R^1) P(B^2 ) P(R^3 )\] Questo fatto, che deve valere per ogni possibile scelta di eventi dai tre sistemi di alternative relativi alle estrazioni, ci permette di intuire come generalizzare il concetto di indipendenza da due a tre o più eventi. È in realtà più semplice definire direttamente l’indipendenza tra sistemi di alternative. Per ora diamo la seguente definizione, che riprenderemo usando il linguaggio delle variabili aleatorie nel prossimo capitolo.
Definizione 2.8 (indipendenza tra sistemi di alternative) Dati \(k \ge 2\) sistemi di alternative \(\mathcal{S}_1\), \(\mathcal{S}_2\), … \(\mathcal{S}_k\), essi si dicono indipendenti tra loro (rispetto all’informazione \(I\)) se \[ P( A^1, A^2, \ldots, A^k | I) = \prod_{i=1}^n P(A^i|I), \] per ogni scelta di \(A^1 \in \mathcal{S}_1\), \(A^2 \in \mathcal{S}_2\), … \(A^k \in \mathcal{S}_k\).
Tornando all’esempio delle estrazioni con rimpiazzo, il robot supporrà allora che i sistemi di alternative \(\mathcal{S}_i = \cur{R^i, B^i}\) relativi alle diverse estrazioni \(i=1, 2, \ldots\) siano tra loro indipendenti. Possiamo allora chiedere, come nel caso delle estrazioni senza rimpiazzo, quale sia la probabilità di osservare una specifica sequenza ordinata lunga \(n\) di palline, di cui \(r\) rosse e \(b\) blu. Notiamo che la sequenza può essere arbitrariamente lunga, perché l’urna non si svuota mai. Usando la regola del prodotto e l’indipendenza, si trova anche in questo caso che la probabilità non dipende dall’ordine in cui i colori vengono osservati e, rispetto al caso senza rimpiazzo, ha un’espressione anche più semplice: \[ \bra{\frac{R}N}^r \bra{ \frac B N}^b = \bra{\frac{R}N}^r \bra{ 1- \frac R N}^{n-r},\] avendo usato che \(B/N = 1-R/N\) e \(b = n-r\). Per semplificare ulteriormente tare probabilità, si pone \(p = R/N \in [0,1]\) la probabilità di estrarre una pallina rossa, e si trova \[ p^r (1-p)^{n-r}.\] Come nel caso delle estrazioni senza rimpiazzo, se chiediamo invece al robot la probabilità di estrarre una qualsiasi sequenza ordinata lunga \(n\) e contenente \(r\) palline rosse, basta moltiplicare la probabilità di una specifica sequenza per il coefficiente binomiale (che conta il numero di tali sequenze). Si trova quindi \[ P( \text{si estrae con rimpiazzo una sequenza lunga $n$ con $r$ rosse} ) = {n \choose r} p^r (1-p)^{n-r}.\] che definisce una nuova densità discreta sulle \(n+1\) alternative, al variare di \(r \in \cur{0, \ldots, n}\). Essa è nota come densita binomiale con parametri \(n\) (numero di estrazioni), \(p \in [0,1]\) (frazione di palline rosse). Tale formula è particolarmente ricorrente in tutte le situazioni in cui vi siano \(n\) “esperimenti” ripetuti e si chieda il numero di “successi” (nel nostro caso, estrarre una pallina rossa), sotto l’ipotesi che tutti gli esperimenti siano tra loro indipendenti e la probabilità di successo per ciascun esperimento sia uguale a \(p\).
# Usiamo la funzione dbinom() per
# ottenere direttamente la densità
# binomiale con i parametri cercati
<- 6
n <- 0:6
r <- dbinom(r, n, 1/3)
dens_1_3 <- dbinom(r, n, 1/2)
dens_1_2 <- dbinom(r, n, 2/3)
dens_2_3
<- matrix(c(dens_1_3, dens_1_2,
dens_matrice nrow = 3, byrow = TRUE)
dens_2_3),
# Grafico a barre e legenda
<- as.character(r)
alternative <- miei_colori[1:3]
colori barplot(dens_matrice, beside = TRUE, col = colori,
names.arg = alternative, ylab = "probabilità",
xlab = "alternativa")
legend("topright", fill = colori, legend = c("p=1/3",
"p=1/2", "p=2/3"), cex = 0.8)
2.8.1 Esercizi
Esercizio 2.15 Ripetere l’esempio della Sezione 2.7 nel caso in cui le estrazioni siano effettuate rimpiazzo.
Esercizio 2.16 Calcolare la probabilità di non estrarre mai una pallina rossa in \(n=4\) estrazioni da un’urna con \(N=9\) palline di cui \(R=5\) rosse e \(B=4\) blu, nei due casi di estrazioni (con e senza rimpiazzo). In quale caso la probabilità è maggiore? Supponendo che il robot conosca il contenuto dell’urna ma non sappia quale tra le due modalità di estrazione viene svolta, calcolare e rappresentare con un grafico a barre la probabilità che le estrazioni siano senza rimpiazzo, avendo osservato solo palline blu nelle prime \(n\) estrazioni, per \(n=1\), \(n=2\), \(n=3\) de \(n=4\).