6.1 Definizioni generali
Definizione 6.1 Un processo stocastico è una collezione di variabili aleatorie \((X_t)_{t \in \mathcal{T}}\), tutte a valori nello stesso insieme \(E\), detto insieme degli stati del processo, e indicizzate da un insieme \(\mathcal{T} \subseteq \R\) detto insieme dei tempi del processo.
Esempio 6.1 Abbiamo già visto in realtà collezioni di variabili aleatorie, ad esempio nei modelli delle estrazioni da un’urna: basta fare corrispondere ogni estrazione \(1, 2, 3, \ldots\) ad un opportuno “istante” (anche semplicemente \(t=1, 2,3..\)).
Il calcolo delle probabilità fornisce strumenti utili per affrontare problemi relativi ad affermazioni che riguardano il futuro di un processo (questo è il problema della previsione) quanto quelli riguardanti il passato, oppure anche il presente (se non è esattamente osservato, il problema della ricostruzione dello stato presente è noto come problema del filtraggio).
Analogamente alle singole variabili aleatorie, si classificano i processi stocastici in base al fatto che \(E\) sia discreto (quindi finito oppure infinito numerabile, ad esempio \(E = \mathbb{Z}\) oppure \(\N\)), e in tal caso si dice che il processo è a stati discreti, oppure \(E\) sia infinito continuo, \(E = \R\), \(E = \R^k\) (e di solito ciascuna \(X_t\) ammetta densità continua), e in tal caso si dice che il processo è a stati continui.
È possibile anche introdurre una ulteriore classificazione, in base alla struttura dell’insieme \(\mathcal{T}\) dei tempi: il processo si dice a tempi discreti se \(\mathcal{T}\) è discreto (ad esempio finito, oppure \(\mathcal{T} = \N\)), mentre invece se \(E = [0,T]\) è un intervallo (anche illimitato, ad esempio \(E = [0, \infty)\)), il processo si dice a tempi continui.
Combinando questi due criteri si definiscono quindi quattro possibili “classi” di processi, e noi svilupperemo la teoria per studiare esempi fondamentali da tre di queste (il caso di tempi e stati continui è tecnicamente più complicato e non lo tratteremo).
È utile pensare ad un processo stocastico \((X_t)_{t \in \mathcal{T}}\) come ad una variabile aleatoria vettoriale a valori in uno spazio di traiettorie, \(E^{\mathcal{T}}\), formalmente lo spazio delle funzioni dai tempi \(\mathcal{T}\) a valori negli stati \(E\). Ad esempio, se \(\mathcal{T} = \cur{1, \ldots, d}\), allora un processo \((X_i)_{i=1}^d\) può essere pensato come una variabile aleatoria congiunta \(X\), a valori in \(E^d\), l’insieme delle \(d\)-uple ordinate di elementi di \(E\). È particolarmente importante ricordare quindi la differenza (valida in generale) tra la legge delle marginali (rispetto ad una informazione nota \(I\)), ossia tutte le probabilità del tipo \[ P(X_t \in U|I),\] al variare di \(U \subseteq E\) e \(t \in \mathcal{T}\), e la legge congiunta, in questo caso detta semplicemente legge del processo \((X_t)_{t \in \mathcal{T}}\), che è definita come tutte le probabilità del tipo \[ P(X_{t_1} \in U_1, X_{t_2} \in U_2, \ldots, X_{t_k} \in U_k | I),\] al variare di tutte le possibili scelte di tempi \(t_1\), \(t_2\), …, \(t_k \in \mathcal{T}\), e sottoinsiemi dei possibil valori \(U_1\), …, \(U_k \subseteq E\), e del numero dei tempi \(k \ge 1\) (questa definizione permette anche di trattare un numero infinito di tempi).
Queste definizioni generali, valide sia per stati discreti che continui, si riformulano nei contesti specifici introducendo le densità (delle marginali e del processo). Nel caso di processi a stati discreti, per ogni \(t \in \mathcal{T}\) la densità discreta della marginale al tempo \(t\), è la funzione che ad \(x \in E\) associa \[ P(X_t = x |I ).\] La densità discreta del processo è invece la collezione delle probabilità \[ P(X_{t_1}= x_1, X_{t_2}=x_2, \ldots, X_{t_k} =x_k| I),\] al variare di tutte le possibili scelte di tempi \(t_1\), \(t_2\), …, \(t_k \in \mathcal{T}\), e dei possibil valori \(x_1\), …, \(x_k \in E\), e del numero dei tempi \(k \ge 1\).
Nel caso di processi a stati continui (meglio, con densità contiuna), basta sostituire la “\(P\)” di probabilità con “\(p\)” della densità di probabilità.
In generale, determinare la legge di un processo tramite pochi parametri è un problema difficile, soprattutto se l’insieme dei tempi diventa grande (per non parlare del caso infinito): anche se l’insieme degli stati \(E = \cur{0,1}\) contiene due soli elementi, la densità discreta di un processo con \(\mathcal{T} = \cur{1, \ldots, d}\) potrebbe essere una qualsiasi funzione da \(\cur{0,1}^d\) a valori in \([0,1]\) (l’unica condizione è che la somma su tutti i valori sia \(1\)), quindi sono necessari circa \(2^d\) “parametri” per descriverla. D’altra parte, le \(d\) densità marginali si ottengono descrivendo \(d\) “parametri” (la probabilità \(P(X_t = 1 |I)\)), oppure anche meno se le leggi sono tutte uguali – basta quindi specificare un solo parametro. Non è pensabile tuttavia di poter ricostruire la densità del processo a partire dalle densità marginali, eccetto in casi molto particolari, ad esempio se le variabili marginali \(X_t\) sono indipendenti tra loro. A partire da queste premesse, lo studio (e le applicazioni) dei processi stocastici si concentrano pertanto su alcune famiglie particolari che si descrivono in modo efficate con pochi parametri. In questo capitolo vedremo il caso dei processi di Markov, più in particolare delle catene di Markov e dei processi di Markov a salti, in cui il numero dei “parametri” necessari per descrivere la legge del processo è polinomiale (quadratico) nel numero degli stati \(E\), ma le marginali non sono (necessariamente) tra loro indipendenti, e anzi permettono di modellizzare tanti fenomeni osservabili nella realtà.
L’ipotesi principale per definire i processi di Markov, è la proprietà detta appunto di Markov, che si riassume così: il futuro e il passato sono condizionatamente indipendenti, noto esattamente il presente. Ecco una definizione precisa:
Definizione 6.2 (proprietà di Markov) Un processo \((X_t)_{t \in \mathcal{T}}\) è di Markov (o markoviano) rispetto all’informazione \(I\) se, per ogni \(x \in E\), \(t \in \mathcal{T}\), le due variabili congiunte relative ai tempi “passati” \((X_s)_{s <t}\) e “futuri” \((X_r)_{r> t}\) sono indipendenti, rispetto all’informazione in cui si conosca esattamente il presente, ossia \(\cur{X_{t} = x}\) (e \(I\)).
Più esplicitamente, se \(A\) è una qualsiasi affermazione che si può formulare solamente in termini delle variabili \((X_s)_{s <t}\), e \(B\) è una qualsiasi affermazione che invece riguarda solamente le variabili \((X_r)_{r> t}\), allora \(A\), \(B\) sono indipendenti rispetto all’informazione \(\cur{X_t = x}\) ed \(I\): \[ P(A, B | I, X_t = x) = P(A | I, X_t = x) P( B | I, X_t = x),\] oppure \[ P(A | I, X_t = x, B) = P(A | I, X_t = x),\] o anche \[P( B | I, X_t = x, A) = P(B | I, X_t = x).\]
In termini grafici, la proprietà di Markov si traduce in una rete bayesiana associata al processo \((X_t)_{t \in \mathcal{T}}\) del seguente tipo:
Nella definizione di processo di Markov, passato e futuro hanno un ruolo simmetrico, come è naturale aspettarsi vista la simmetria nel concetto di indipendenza probabilistica tra due eventi, tuttavia si predilige spesso il punto di vista in cui si condiziona rispetto al passato e si calcola la probabilità di un evento futuro.
La proprietà di Markov permette di decomporre la densità (discreta o continua) del processo in termini di prodotti, usando la regola del prodotto generalizzata e l’indipendenza: infatti, dati tempi \(t_1<t_2<\ldots < t_k\) e stati \(x_1\), … \(x_k\), si ha (sottointendendo \(I\)) \[\begin{equation}\begin{split} & P(X_{t_1}= x_1, X_{t_2}=x_2, \ldots, X_{t_k} =x_k) =\\ & = P(X_{t_1} = x_1)\cdot P(X_{t_2}=x_2| X_{t_1} = x_1) \cdot P(X_{t_3}=x_3| X_{t_2} = x_2, X_{t_1} = x_1)\cdot \ldots \\ & \quad \ldots \cdot P( X_{t_k } = x_k | X_{t_{k-1}}=x_{k-1}, \ldots, X_{t_1} = x_1)\\ & = P(X_{t_1} = x_1) \prod_{i=2}^k P(X_{t_i}=x_i| X_{t_{i-1}} = x_{i-1}). \tag{6.1}\end{split}\end{equation}\] Pertanto, per conoscere la densità del processo \(X\), basta conoscere la densità marginale al tempo \(t_0 = \min \mathcal{T}\) e tutte le cosiddette probabilità di transizione (o densità di transizione nel caso continuo), ossia \[ P(X_{t } = y | X_s = x),\] al variare di \(s<t \in \mathcal{T}\) e per ogni coppia di stati \(x\), \(y \in E\).
Nonostante la notevole semplificazione rispetto alla densità generale, si tratta comunque di una descrizione complessa (le coppie di tempi possono essere tantissime, anche infinite). Per procedere ulteriormente e sviluppare una teoria semplice ma flessibile è opportuno procedere in due modi:
considerare insiemi di tempi \(\mathcal{T}\) come intervalli discreti \(\mathcal{T} = \cur{0,1,2,\ldots, n}\) o continui \(\mathcal{T} = [0,T]\) (eventualmente anche infiniti). In questo modo è sufficiente descrivere la probabilità di transizione tra un istante \(s\) e il “successivo” \(t =s+1\), nel caso discreto, oppure \(t=s+\delta s\) (infinitesimo) nel caso continuo.
considerare il caso di processi di Markov omogenei, ossia tali che le probabilità di transizione dal tempo \(s\) al tempo \(t\) dipendano solamente dalla differenza dei tempi \(t-s\), o equivalentemente, per ogni \(\Delta t \ge 0\) si abbia \[ P(X_{t } = y | X_s = x) = P(X_{t+\Delta t} = y | X_{s+\Delta t } = x)\] per stati qualunque \(x\), \(y \in E\), purché \(t+\Delta t\) e \(s+\Delta t\) siano pure tempi in \(\mathcal{T}\) (altrimenti non ha senso \(X_{t+\Delta t}\) o \(X_{s+\Delta t}\)).
Vedremo nelle prossime sezioni che i processi di Markov che soddisfano queste due condizioni si possono descrivere con un numero di parametri dell’ordine degli elementi di \(E\) elevato al quadrato (essenzialmente tramite una matrice con tante righe e colonne quanti sono gli stati).
Remark. L’omogeneità riguarda solamente le probabilità di transizione tra stati, e non la legge marginale al tempo iniziale del processo \(t_0 = \min\mathcal{T}\). Pertanto per descrivere completamente un processo di Markov omogeneo bisogna anche specificare tale legge marginale. Vedremo nelle sezioni successive come le leggi marginali ad ogni tempo \(t\) si ottengono di conseguenza.
Concludiamo la sezione con un’ultima definizione molto importante nella teoria e nelle applicazioni dei un processo stocastici, la stazionarietà. Essa estende in un certo senso l’omogeneità da due tempi a un numero arbitrario (è tuttavia una definizione generale e non riguarda solo i processi di Markov).
Definizione 6.3 Un processo \((X_t)_{t \in \mathcal{T}}\) si dice stazionario se, per ogni \(\Delta t \ge 0\), la legge (congiunta) del processo coincide con quella del “traslato” \((X_{t+\Delta t})_{ t \in \mathcal{T}}\) (purché i tempi \(t+\Delta t\) appartengano a \(\mathcal{T}\)). Più precisamente, per ogni \(k\ge 1\) e \(t_1\), \(t_2\), …, \(t_k \in \mathcal{T}\) e \(\Delta t \ge 0\), la legge congiunta di \((X_{t_1}, ..., X_{t_k})\) coincide con quella di \((X_{t_1+\Delta t}, ..., X_{t_k+\Delta t})\), purché i tempi \(t_i +\Delta t\) appartengano a \(\mathcal{T}\). In particolare, nel caso di stati discreti, vale \[ P( X_{t_1}= x_1, \ldots, X_{t_k}= x_k) = P( X_{t_1+\Delta t }= x_1, \ldots, X_{t_k+\Delta t}= x_k),\] per qualsiasi scelta di stati \(x_1\), …, \(x_k \in E\). Nel caso continuo l’identità sopra vale per le densita continue (scrivendo la densità \(p\) al posto della probabilità \(P\)).
Osserviamo che la stazionarietà implicitamente dipende dall’informazione che si suppone nota \(I\) (sottointesa sopra).
A volte questa definizione è detta di stazionarietà in senso stretto, per distinguerla da una versione più debole (in senso lato, si veda la Sezione 7.1). La definizione può sembrare macchinosa perché bisogna assicurare che i tempi traslati \(t_i +\Delta t\) appartengano comunque all’insieme dei tempi \(\mathcal{T}\). Ma in effetti è una condizione naturale, altrimenti non avrebbe proprio senso la variabile aleatoria \(X_{t_i+\Delta t}\). Due casi molto semplici che considereremo spesso sono i tempi discreti \(\mathcal{T} = \mathbb{N}\), così ponendo \(\Delta t \in \mathbb{N}\) sicuramente la condizione \(t_i +\Delta t \in \mathbb{N}\) è sempre soddisfatta, oppure i tempi continui \(\mathcal{T}= [0, \infty)\). Il vantaggio della definizione data sopra è che vale anche per insiemi di tempi finiti o comunque limitati.
Remark. Se un processo \(X\) è stazionario, necessariamente tutte le leggi delle marginali \(X_t\) coincidono: basta usare \(k=1\) nella definizione sopra.
6.1.1 Esercizi
Esercizio 6.1 Sia \((X_t)_{t\in \mathcal{T}}\) un processo a valori in un inseme di stati \(E\) discreto, tale che tutte le marginali \(X_t\) siano indipendenti tra loro. Dire se è markoviano e calcolarne le probabilità di transizione. Sotto quali condizioni sulle leggi marginali il processo è stazionario?