2.9 Gli assiomi di Kolmogorov

L’approccio intuitivo alla probabilità, con le sue regole di calcolo, pone diversi problemi, a vari livelli, oltre a quelli accennati all’inizio del capitolo di tipo psicologico-filosofico, ossia sul fatto che il calcolo ben rappresenti un’astrazione del ragionamento razionale in presenza di incertezza.

I problemi tecnici principali che solleva sono i seguenti:

Come attribuire le probabilità iniziali (quelle che abbiamo chiamato a priori)? In molti casi la scelta di densità uniforme è sembra ragionevole, ma è facile capire che altre situazioni realistiche non lo permettono.
Come garantire la consistenza del calcolo, ossia che \(P(A|I)\) sia ben definita? Combinando le regole è spesso possibile arrivare ad un risultato tramite passaggi diversi, ma si può dimostrare che tale risultato non dipende da come le regole sono state applicate?
Come trattare i passaggi al limite, in particolare, nel caso di infinite affermazioni? Questo è particolarmente rilevante nelle applicazioni per poter argomentare in modo rigoroso molte approsimazioni, se in cui gli eventi introdotti sono talmente numerosi da essere intrattabili in modo preciso.

A queste domande, in particolare la seconda e la terza, risponde la descrizione assiomatica della probabilità proposta da Kolmogorov nel 1933.

L’idea principale è di formalizzare i diagrammi di Eulero-Venn, identificando

le affermazioni \(A\), \(I\) ecc. di interesse con dei veri e propri sottoinsiemi di un insieme “universo” \(\Omega\), che corrisponde alla informazione iniziale,
la probabilità con una nozione astratta di area del sottoinsieme.

Presentiamo brevemente in qusta sezione gli assiomi proposti da Kolmogorov. L’idea è che, per risolvere un problema concreto, bisognerebbe prima costruire i seguenti oggetti matematici:

Si fissa un insieme “universo” \(\Omega\) che codifica tutte le possibili situazioni (scenari) che si potrebbero presentare. Ad esempio, nel caso di un lancio di dado a sei facce, si pone \[\Omega = \cur{1,2,3,4,5,6},\] che corrisponde ai possibili esiti (ma ovviamente, tante altre scelte sono ragionevoli).
Si identificano quali affermazioni \(A\), ossia quali sottoinsiemi di \(\Omega\), sono potenzialmente interessanti. Si introduce quindi un insieme \(\mathcal{A}\) i cui elementi \(A \in \mathcal{A}\) sono sottoinsiemi di \(\Omega\), detto la \(\sigma\)-algebra degli eventi. L’insieme degli eventi \(\mathcal{A}\) deve comunque almeno contenere l’insieme “universo” \(\Omega\) e, se \(A\), \(B \in \mathcal{A}\) sono eventi, anche \(A^c\) (che corrisponde alla negazione “non \(A\)”) \(A \cap B\) (che corrisponde alla congiunzione “\(A\) e \(B\)”) e \(A \cup B\) (che corrisponde ad “\(A\) oppure \(B\)”) sono eventi, ossia appartengono ad \(\mathcal{A}\).

Inoltre, per permettere di passare al limite, si richede che valga lo stesso per l’unione infinita di eventi: dati \(A_n \in \mathcal{A}\), pure \(\cup_{n=1}^\infty A_n \in \mathcal{A}\).

Nulla vieta di considerare sempre l’insieme che comprende tutti i sottoinsiemi di \(\Omega\), come è naturale nell’esempio del dado. Tuttavia in pratica converrebbe scegliere \(\mathcal{A}\) il più piccolo possibile, purché contenga le risposte del problema che stiamo considerando (vi è poi un altro problema, che non trattiamo, dovuto ad evitare alcuni paradossi matematici nel caso di \(\Omega\) infinito).

Si definisce una funzione di probabilità \(P: \mathcal{A} \to [0,1]\) tale che \(P(\Omega)= 1\) e, per ogni \(A\), \(B \in \mathcal{A}\) con \(A \cap B = \emptyset\) valga \[ P(A \cup B) = P(A)+ P(B).\] In termini intuitivi, \(P(A)\) corrisponde alla probabilità \(P(A|\Omega)\) rispetto all’informazione iniziale, di cui si richiede valga la regola della somma (per eventi incompatibili).

Per passare al limite, si richiede in più che la regola della somma si estenda ad infiniti eventi \(A_n \in \mathcal{A}\) a due a due incompatibili, per cui, se \(A_n \cap A_m = \emptyset\) per ogni coppia \(n\neq m\), vale \[ P\bra{ \bigcup_{n=1}^\infty A_n } = \sum_{n=1}^\infty P(A_n).\]

Più grande è la famiglia degli eventi \(\mathcal{A}\) introdotta al punto precedente, più difficile sarà la costruzione della probabilità \(P\) e la verifica delle sue proprietà. Per questo nel passo precedente si suggerisce di considerare \(\mathcal{A}\) il più piccolo possibile (ma comunque utile ai fini del problema che si deve risolvere).

Si definisce infine, per ogni \(A,I \in \mathcal{A}\) tale che \(P(I)>0\), la probabilità condizionata usando appunto la formula di Kolmogorov \[ P(A|I) = \frac{P(A \cap I)}{P(I)}.\] Questa identità, che abbiamo già incontrato come conseguenza della regola del prodotto, ora diventa una definizione (e la regola del prodotto ne diventa una conseguenza).

Gli assiomi terminano qui, e una tripla \((\Omega, \mathcal{A}, P)\) che soddisfa le condizioni sopra è detta spazio di probabilità secondo Kolmogorov.

Gli assiomi di Kolmogorov sono uno strumento importante per lo sviluppo matematico della probabilità, in particolare per i passaggi al limite. Tuttavia, va notato che lasciano completamente irrisolto il primo problema enunciato all’inizio della sezione: come stabilire probabilità a priori in un problema concreto? Per individuare la probabilità a priori si ricorre a diversi principi e strumenti anche non completamente matematici (un esempio, è il principio di massima entropia, che presenteremo nella Sezione 4.8). Va altresì chiarito che l’impostazione di Kolmogorov è in realtà troppo rigida e onerosa nel caso in cui si debba risolvere un problema elementare di probabilità: per questa ragione noi non ne faremo mai un uso esplicito nel corso.

2.9.1 Esercizi

Esercizio 2.17 Costruire esplicitamente uno spazio di probabilità \((\Omega, \mathcal{A}, P)\) secondo Kolmogorov che permetta di trattare il modello delle estrazioni con rimpiazzo da un’urna contenente \(N=10\) palline di cui \(R=3\) rosse e le rimanenti blu.

Esercizio 2.18 Dato uno spazio di probabilità \((\Omega, \mathcal{A}, P)\) secondo Kolmogorov, dedurre la formula di Bayes dagli assiomi.