2.1 Cos’è la probabilità?
Mentre le regole di calcolo della probabilità sono universalmente accettate e usate in vari ambiti scientifici, vi sono diverse scuole di pensiero relative all’interpretazione della probabilità stessa e delle sue applicazioni. Senza entrare nei dettagli della questione, in questo corso adottiamo un’interpretazione soggettiva perché ci permetterà di ottenere risultati applicabili in contesti più vari (rispetto all’intepretazione frequentista).
La probabilità misura il grado di fiducia che un soggetto attribuisce alla validità di una affermazione, avendo a disposizione una informazione parziale (che in generale non permette di dedurre la verità o la falsità dell’affermazione).
Teniamo presente che, quando consideriamo un soggetto e il grado di fiducia che attribuisce ad un’affermazione, non siamo in realtà interessati ad una persona o ad un gruppo di persone specifiche (sarebbe piuttosto campo di indagine della psicologia o della sociologia), quanto piuttosto ad una idealizzazione di una intelligenza razionale, come potrebbe essere un essere umano (de-)privato di tutte le emozioni, gli istinti, ecc. Si tratta dello stesso procedimento che interviene nello studio della logica matematica, come astrazione del ragionamento deduttivo. Come per la logica, i risultati che si ottengono tramite il calcolo delle probabilità sono ovviamente utili anche per lo studio di problemi reali, che possono riguardare intelligenze umane o artificiali.
Remark. Una delle difficoltà dovute all’intepretazione soggettiva della probabilità, anche nello svolgimento degli esercizi, è proprio nel mantenere un grado di separazione con il soggetto astratto cui è richiesto di determinare una probabilità sulla base di una certa informazione. La nostra intuizione, allenata dal buon senso e dall’esperienza, in molti casi ci suggerisce una risposta senza però fornirci un percorso per giustificarla completamente. Il calcolo delle probabilità diventa quindi un modo per programmare il soggetto razionale a risolvere dei problemi – anche se noi stessi in certi casi ne sappiamo intuitivamente già dare una soluzione. Per aiutarci in questa separazione di ruoli, conveniamo in questo corso di introdurre un personaggio fittizio, corrispondente a questo soggetto razionale del tutto ideale, che chiameremo il robot, come nella monografia di E.T. Jaynes, Probability Theory The Logic of Science, un testo consigliato per chi voglia approfondire gli aspetti del calcolo delle probabilità come logica dell’incertezza.
Date queste premesse, il calcolo della probabilità può essere quindi posto come il seguente problema generale, che affronteremo in tutto questro corso in molteplici contesti particolari: assegnate al robot
- una informazione, che indichiamo con \(I\), nota e ritenuta vera (dal robot),
- una affermazione, che indichiamo con \(A\), che nella realtà può essere solo vera oppure falsa (senza ambiguità),
è richiesto al robot di misurare il grado di incertezza circa la validità di \(A\), sulla base di tutta e sola l’informazione \(I\), nel modo più razionale possibile.
Tale misura, detta la probabilità di \(A\) sapendo \(I\) (o nota \(I\), o anche condizionata ad \(I\)) deve essere un numero reale compreso tra \(0\) e \(1\), e si indica con la notazione \[ P(A | I).\]
Sicuramente avrete incontrato esempi di probabilità associate a giochi come lanci di dadi, monete, oppure estrazioni di carte. Queste applicazioni storicamente motivarono i primi studi sulla probabilità, ma pensare alla probabilità solo in questi termini al giorno d’oggi è estremamente riduttivo. Ecco due esempi di problemi reali in cui il calcolo delle probabilità fornisce degli strumenti molto importanti (ovviamente poi non è l’unico ingrediente per la loro risoluzione).
Esempio 2.1 Potremmo chiedere al robot di valutare se “oggi pioverà a Pisa” (affermazione \(A\)) sapendo che “oggi è nuvoloso” (informazione nota \(I\)). Le previsioni meteorologiche ovviamente non si basano sulla banale informazione \(I\) sopra, bensì sul numerosissime misurazioni di quantità fisiche e calcoli numerici su specifici modelli. Il calcolo delle probabilità gioca un ruolo importante per quantificare l’incertezza associata al risultato (la previsione) fornito.
Esempio 2.2 Data una immagine (informazione nota \(I\)), potremmo chiedere al robot di valutare se essa “rappresenti un volto umano” (\(A\)). Questo è un problema che noi esseri umani risolviamo in pochissimo tempo (appoggiandoci sulla lunga storia della nostra evoluzione). Dare una risposta automatizzata a questo e simili questioni di classificazione, pochi anni fa era considerato fantascienza, mentre oggi è un compito alla portata di uno smartphone. Tra vari aspetti che hanno permesso questo sviluppo, un punto di svolta è stata l’introduzione di opportuni modelli matematici, anche basati sul calcolo delle probabilità, in modo da “insegnare” al robot come rispondere sulla base dell’informazione contenuta in grandissime raccolte di immagini classificate (un po’ come nei modelli metereologici, la vera informazione nota \(I\) è quindi molto di più della singola immagine fornita al robot).
In questo corso ovviamente non ci occuperemo di problemi così specifici e gli esempi che tratteremo saranno forse meno affascinanti. Lo scopo però è di fornire un linguaggio e gli strumenti matematici opportuni anche per avvicinarsi a queste ed altre questioni, estremamente rilevanti ai fini pratici.
Introduciamo ora alcuni termini tecnici propri del calcolo delle probabilità.
Definizione 2.1 (casi estremi) Se \(P(A|I) = 1\), significa che \(A\) è ritenuta dal robot praticamente vera (si dice tecnicamente quasi certa), mentre se \(P(A|I) = 0\), significa l’opposto, ossia ritenuta praticamente falsa, e si dice allora che \(A\) è trascurabile (condizionatamente ad \(I\)).
Definizione 2.2 (eventi) Si usa il termine generico evento per indicare le affermazioni che si considerano nel calcolo, come \(A\) o anche l’informazione nota \(I\) (che pure possiamo pensare come un’affermazione). Si usa dire anche che l’evento \(A\) si realizza per affermare che \(A\) è vero. Questo perché storicamente il calcolo della probabilità riguardava affermazioni su fatti legati al gioco d’azzardo, come ad esempio il lancio di un dado o l’estrazione del lotto. Anche noi useremo questo termine, ma spesso accompagnandolo con sinonimi meno tecnici e in certi casi più evocativi, come affermazione o informazione.
Le operazioni logiche elementari tra affermazioni saranno usate di continuo e adotteremo varie notazioni.
Per indicare la negazione di una affermazione \(A\), ossia l’affermazione che è vera se e solo se \(A\) è falsa, scriveremo “non \(A\)” oppure la notazione insiemistica per il complementare \(A^c\).
Per la congiunzione logica tra \(A\) e \(B\), ossia l’affermazione che è vera se e solo se \(A\), \(B\) sono entrambe vere, scriviamo “\(A\) e \(B\)” oppure semplicemente \(A,B\) (con la virgola) oppure la notazione insiemistica per l’intersezione \(A\cap B\).
Infine, per la disgiunzione (inclusiva) tra \(A\) e \(B\), ossia l’affermazione che è vera se e solo se almeno una tra \(A\), \(B\) è vera, scriviamo “\(A\) oppure \(B\)”, “\(A\) o \(B\)”, o useremo la notazione insiemistica per l’unione \(A \cup B\).
Sempre a proposito di notazione, per alleggerire formule altrimenti pesanti, spesso l’informazione nota al robot (che abbiamo indicato con \(I\), ma ovviamente può cambiare) è sottointesa, specialmente se non ci sono ambiguità, e scriveremo solamente \[ P(A) \quad \text{ al posto di } \quad P(A|I).\]
Remark. Questa notazione semplificata tuttavia non deve trarre in inganno: tutte le probabilità sono sempre condizionate ad una informazione nota \(I\), magari anche estremamente banale. Il suo ruolo è analogo a quello delle ipotesi in un teorema, mentre quello di \(A\) è simile a quello della tesi, quindi entrambi fondamentali! Spesso negli esercizi di probabilità si sottovaluta o misintepreta l’informazione presentata nel testo (che va a definire l’informazione \(I\)), facendo di fatto calcolare al robot delle probabilità diverse da quelle richieste.
Il nostro obiettivo, nelle prossime sezioni, sarà di introdurre delle regole di calcolo per la probabilità, in un certo senso analoghe a quelle della logica, ma diverse e, come vedremo, più flessibili. Ridurremo tutto a due regole fondamentali, dette brevemente della somma e del prodotto. Non ci occuperemo troppo di giustificarle, quanto piuttosto di mostrare come da esse seguano le altre regole utili che permettono di calcolare probabilità per risolvere problemi (anche se elementari) in modo efficace.
Prima di vedere tali regole, osserviamo le seguente proprietà di monotonia della probabilità, semplice ma a volte sfuggevole2.
Proprietà 2.1 (monotonia) Date due affermazioni \(A\) e \(B\) e l’informazione nota \(I\), se \(A\) è vera in qualsiasi situazione in cui \(B\) sia vera (supponendo sempre vera \(I\)), allora vale \[ P(B | I ) \le P(A | I ).\]
Alternativamente, la condizione “\(A\) è vera ogni volta che \(B\) lo è” si può formulare come “l’implicazione logica \(B \to A\) è vera” (supponendo vera \(I\)). Il caso più semplice è quando \(B\) sia ottenuta come la congiunzione di \(A\) e un’altra affermazione, ad esempio \(A\) è “oggi piove”, \(B\) è “oggi piove e porto l’ombrello”.
Remark. Per visualizzare la proprietà di monotonia e le successive regole di calcolo, introduciamo la rappresentazione grafica a diagrammi di Eulero-Venn degli eventi, ossia delle affermazioni e dell’informazione nota. Precisamente, possiamo pensare l’informazione nota al robot \(I\) come un universo, rappresentato tramite un riquadro, in cui tutte le altre affermazioni sono contenute. Tradizionalmente, i diagrammi rappresentano insiemi, mentre in questo caso sono affermazioni: sarà sufficiente pensare agli ipotetici elementi contenuti in questi diagrammi come alle possibili situazioni in cui l’affermazione è vera (in termini probabilistici, l’evento si realizza). Questo è in linea con la descrizione assiomatica di Kolmogorov, cui si accenna nella Sezione 2.9. Comunque, eccetto per problemi estremamente semplici, i diagrammi di Eulero-Venn non sono molto pratici, e li abbandoneremo presto per rappresentazioni più utili, come i diagrammi ad albero e le reti bayesiane.
Qualitativamente, la probabilità di \(A\) è associata all’area del suo diagramma: tanto più esteso, maggiore sarà la sua probabilità, fino al caso in cui \(A\) copra tutto l’universo \(I\), ossia \(A\) è quasi certo, \(P(A|I)=1\). D’altra parte, se \(A\) è trascurabile, \(P(A|I)=0\), possiamo rappresentare \(A\) così piccolo da evitare del tutto di disegnarlo – precisamente il diagramma vuoto corrisponde ad una affermazione trascurabile, sapendo \(I\).
Le operazioni logiche di congiunzione (e) e disgiunzione inclusiva (oppure) corrispondono rispettivamente all’intersezione e all’unione tra i diagrammi. La negazione (non) corrisponde al complementare (relativamente all’universo \(I\)), mentre la condizione che implica la monotonia della probabilità, ossia “\(A\) è vera ogni volta che \(B\) lo è” corrisponde all’inclusione tra i diagrammi.
2.1.1 Esercizi
Esercizio 2.1 Disegnare il diagramma di Venn associato all’affermazione “non (\(A\) e \(B\))” e verificare che coincide con quello di “(non \(A\)) o (non \(B\))” (regola di De Morgan).
Esercizio 2.2 Fornire un esempio concreto di affermazioni \(A\), \(B\) ed \(I\) in cui è intuitivamente chiaro che \(P(A|I) \le P(A|I\cap B)\) e uno in cui all’opposto \(P(A|I) \ge P(A|I \cap B)\).