2.3 Sistemi di alternative
Una ulteriore conseguenza della regola della somma riguarda l’estensione al caso di \(n\) affermazioni \(A_1\), \(A_2\), …, \(A_n\). Diciamo che esse sono a due a due incompatibili tra loro se per ciascuna coppia \(A_i\), \(A_j\) con \(i \neq j\), esse sono incompatibili, ossia “\(A_i\) e \(A_j\)” è trascurabile (rispetto all’informazione nota \(I\)). Ragionando sulla regola della somma e usando l’induzione matematica, si ottiene che per l’affermazione “almeno una tra le \(A_i\) è vera”, ossia “\(A_1\) oppure \(A_2\) oppure … \(A_n\)”, vale \[P( \text{almeno una tra le $A_i$ è vera} | I) = P(A_1|I)+ \ldots + P(A_n|I) = \sum_{i=1}^n P(A_i|I).\]
Esempio 2.4 Si consideri il lancio di un dado a sei facce e per ogni \(i \in \cur{1, \ldots, 6}\), si ponga \(A_i\) l’affermazione “esce la faccia \(i\)”. Allora vale \[ P( \text{esce una faccia pari}) = P(\text{una tra $A_2$, $A_4$ o $A_6$ è vera}) = P(A_2)+P(A_4)+P(A_6).\]
Date affermazioni \(A_i\) a due a due incompatibili, non necessariamente una di esse deve essere sempre vera, ma se questo è il caso (come nell’esempio sopra per \(i=\cur{1,2,3,4,5,6}\)) allora una e una sola tra le \(A_i\) è necessariamente vera (ma spesso il robot di solito non sa quale sia). Ne segue che \[1 = P( \text{una tra le $A_i$ è vera} ) = \sum_{i=1}^n P(A_i).\] In questa situazione, le \((A_i)_{i=1}^n\) sono dette un sistema di alternative.
Definizione 2.3 (sistema di alternative) Un sistema di alternative (rispetto ad una informazione \(I\)) è una famiglia \((A_i)_{i=1}^n\) di affermazioni (dette alternative)
- a due a due incompatibili (o mutuamente esclusive) e
- tali che almeno una tra loro è sicuramente vera.
In breve, una e una sola tra le alternative è sicuramente vera (nota \(I\)).
Remark. In questo capitolo ci limiteremo a sistemi con un numero \(n\) finito di alternative. In seguito, considereremo sistemi infiniti, ma useremo un linguaggio più adatto a trattarli, quello delle variabili aleatorie.
Definizione 2.4 (alternativa semplice) Ad un’affermazione \(A\), si può sempre associare il sistema di alternative costituito da \(A\) e la sua negazione “non \(A\)”.
Rappresentato in diagrammi, un sistema di alternative corrisponde ad una partizione dell’universo \(I\).
I sistemi di alternative sono uno degli strumenti fondamentali per risolvere i problemi elementari di probabilità, in particolare per decomporre (analizzare) un problema complesso in una famiglia di sotto-problemi più semplici da trattare. Vale infatti la seguente generalizzazione della regola della somma (la cui deduzione è lasciata per esercizio).
Proposizione 2.2 (formula di decomposizione, o della probabilità assoluta) Sia \((A_i)_{i=1}^n\) un sistema di alternative (rispetto all’informazione \(I\)) e sia \(B\) una (qualsiasi) affermazione. Allora si può decomporre \[ P(B|I) = P(\text{$B$ e $A_1$}|I)+ \ldots + P(\text{$B$ e $A_n$}|I).\]
2.3.1 Densità discreta
Ad un sistema di alternative \((A_i)_{i=1}^n\) (rispetto all’informazione \(I\)) possiamo associare la collezione delle probabilità \[ \bra{P(A_i|I)}_{i=1}^n.\] Come conseguenza della regola della somma, ciascuna \(p_i := P(A_i|I)\) è un numero compreso tra \(0\) ed \(1\) ed inoltre vale \[ \sum_{i=1}^n p_i = 1.\] Una tale famiglia di numeri è detta densità discreta di probabilità. A ogni sistema di alternative è quindi associata una densità discreta (rispetto ad una informazione nota \(I\)).
Definizione 2.5 (costanti moltiplicative) Data una qualsiasi funzione \(i \mapsto f(i)\), definita per \(i\in\cur{1, \ldots, n}\), a valori non-negativi (e non identicamente nulla), si può associare una e una sola densità discreta proporzionale ad \(f\), ossia tale che \[ p_i = c f(i) \quad \text{per ogni $i \in \cur{1, \ldots, n}$,}\] per una costante moltiplicativa \(c>0\) (che non dipenda da \(i\)). Imponendo infatti che la somma delle \(p_i\) sia uno, si trova il valore \[c = \bra{ \sum_{i=1}^n f(i)}^{-1}.\] Sfruttando questo fatto, è molto comodo spesso definire una densità discreta a meno di costante moltiplicativa, e si scrive di solito \[ p_i \propto f(i),\] (si legge “\(p_i\) è proporzionale ad \(f(i)\)”).
Alcune densità discrete si presentano più frequentemente di altre, e sono state storicamente classificate, spesso attribuendo ad esse il nome di chi le ha studiate per primo, o più a fondo (purtroppo tale scelta ne rende un po’ difficile e noiosa la memorizzazione). Introduciamo due esempi fondamentali, altre verranno discusse in seguito.
Esempio 2.5 (densità uniforme) Supponendo di avere \(n\) alternative \((A_i)_{i=1}^n\), la densità uniforme è il caso in cui tutte le probabilità siano uguali tra loro, ossia \[ P(A_i|I) = \frac 1 n,\] o, più semplicemente, \[ P(A_i|I) \propto 1.\] Questa densità discreta è usata quando non vi siano ragioni, data l’informazione \(I\), per distinguere (o “preferire”) una alternativa \(A_i\) rispetto alle altre (questo è il principio di indifferenza di Laplace). È una densità discreta che si introduce spesso per iniziare lo studio di un problema, di cui si conoscono pochi aspetti. Ad esempio, nel caso del lancio di un dado a sei facce, prima del lancio, non sapendo alcunché sul dado o su come si effutta il lancio, il robot per il principio di Laplace supporrà che la densità delle sei alternative \(A_i\) indicate nell’Esempio 2.4 sia uniforme.
# Costruiamo un vettore costante con la
# funzione rep() e poi dividiamo
# opportunamente perché la somma sia
# uno, usando la funzione sum(). Il
# passaggio in questo caso è banale ma
# sarà utile in altre occasioni.
<- 6
n <- rep(1, n)
dens_uniforme <- dens_uniforme/sum(dens_uniforme)
dens_uniforme
# Introduciamo dei parametri per il
# plot, come le etichette da inserire
# sotto le barre e il colore (grigio)
<- as.character(1:6)
alternative
# Usiamo il comando barplot() per
# produrre il grafico
barplot(dens_uniforme, col = miei_colori[1],
names.arg = alternative, ylab = "probabilità",
xlab = "alternativa")
Esempio 2.6 (densità Bernoulli) Questa è sicuramente la densità discreta più semplice – ma ha un nome complicato da ricordare! È la densità associata ad un qualsiasi sistema di due sole alternative, ossia \(A_1\) e la sua negazione “non \(A_1\)”, che si indica tradizionalmente questo caso con \(A_0\). È sufficiente indicare quindi il valore di una sola probabilità, \(p := P(A_1|I)\), poiché di conseguenza \(P(A_0|I) =1 -p\). Il valore \(p \in [0,1]\) è detto parametro della densità Bernoulli. Molte di queste densità notevoli presentano in effetti naturalmente dei parametri (numeri naturali, reali ecc.) che vanno precisati per determinarle completamente – stiamo quindi precisamente descrivendo una famiglia di densità discrete, ciascuna identificata qui dal valore del parametro \(p\).
# Ricordiamo che che il parametro p
# indica la probabilità
# dell'alternativa 1 (l'altra invece
# indicata con 0)
<- c(2/3, 1/3)
dens_bernoulli_1_3 <- c(1/2, 1/2)
dens_bernoulli_1_2 <- c(1/3, 2/3)
dens_bernoulli_2_3
# per fare un singolo grafico
# costruiamo una matrice a partire
# dalle densità (ciascuna densità è una
# riga)
<- matrix(c(dens_bernoulli_1_3,
dens_bernoulli_matrice
dens_bernoulli_1_2, dens_bernoulli_2_3),nrow = 3, byrow = TRUE)
# Plottiamo il diagramma a barre
<- c("0", "1")
alternative <- miei_colori[1:3]
colori
barplot(dens_bernoulli_matrice, beside = TRUE,
col = colori, names.arg = alternative,
ylab = "probabilità", xlab = "alternativa")
# Aggiungiamo una legenda
legend("top", fill = colori, legend = c("p=1/3",
"p=1/2", "p=2/3"), cex = 0.8)
Dato un sistema di alternative \((A_i)_{i=1}^n\), una domanda naturale è di individuare quale sia la più plausibile, sulla base dell’informazione nota \(I\). Si tratta pertanto determinare \(i_{\max}\) tale che \[ P(A_{i_{\max}} |I ) = \max_{i=1, \ldots, n} P(A_{i} |I ),\] ossia \[ i_{\max} \in \operatorname{arg} \max \cur{ P(A_i|I) : i \in \cur{1, \ldots, n}}.\] Nella statistica tale \(i_{\max}\) è detto moda della densità discreta (notiamo che non è necessariamente unica, si pensi al caso di una densità uniforme).
Remark. Spesso, per determinare la moda \(i_{\max}\) conviene passare al logaritmo (che essendo una funzione crescente, non cambia il problema) e determinare \[ i_{\max} \in \operatorname{arg} \max \cur{ \log( P(A_i|I) ): i \in \cur{1, \ldots, n}}.\] Se invece si preferisce minimizzare una funzione invece di massimizzarla (molti metodi numerici sono naturalmente implementati per trovare il minimo, non il massimo di una funzione), ovviamente basta cambiare di segno: \[ i_{\max} \in \operatorname{arg} \min \cur{ -\log( P(A_i|I) ): i \in \cur{1, \ldots, n}}.\]
2.3.2 Esercizi
Esercizio 2.5 Si consideri la densità discreta \[ p_i \propto i^2 \] per \(i \in \cur{1, \ldots, 10}\). Determinare la costante moltiplicativa e rappresentare la densità tramite un grafico a barre. Calcolarne la moda \(i_{\max}\) e dire se è unica.
Esercizio 2.6 Si consideri la densità discreta \[ p_i \propto i^2(5-i)^4\] per \(i \in \cur{1, 2, \ldots, 5}\). Determinare la costante moltiplicativa e rappresentare la densità tramite un grafico a barre. Calcolarne la moda \(i_{\max}\) e dire se è unica.