Indici di validazione
Indici statistici per la validazione del modello
Questa pagina descrive in dettaglio gli indici utilizzati nella validazione per confrontare i valori modellati con quelli osservati dalle centraline. Ogni indice misura un aspetto diverso dell'accordo modello-osservazioni (bias sistematico, errore, correlazione, capacità di riprodurre la variabilità, capacità di individuare i superamenti di soglia): per una valutazione robusta vanno letti insieme, non singolarmente.
Notazione. Per ogni coppia di valori allineati nel tempo: \( o_i \) = valore osservato, \( m_i \) = valore modellato, con \( i = 1 \dots n \) (numero di coppie valide). Le medie sono indicate con \( \bar o \) e \( \bar m \), le deviazioni standard con \( \sigma_o \) e \( \sigma_m \). Gli indici frazionali e normalizzati (NMB, NME, MFB, MFE) hanno senso solo per grandezze non negative (concentrazioni); per grandezze che cambiano segno usare gli indici "assoluti" (MB, MAE, RMSE, R, KGE, NSE).
1. Bias (errore sistematico)
Misurano la tendenza media del modello a sovrastimare (valore positivo) o sottostimare (valore negativo) le osservazioni. Valore ottimale: 0.
MB — Mean Bias
Bias medio nelle unità fisiche del fenomeno. È il più immediato da interpretare ma dipende dalla scala: utile soprattutto per concentrazioni basse, dove gli indici percentuali diventano instabili.
NMB — Normalized Mean Bias
Bias normalizzato sulla somma delle osservazioni: esprime in percentuale la sovra/sottostima complessiva. È il riferimento tipico per la valutazione normativa (es. media annuale di NO2).
MFB — Mean Fractional Bias
Bias frazionale simmetrico e limitato: pesa allo stesso modo sovrastime e sottostime ed è robusto rispetto agli outlier e alle distribuzioni asimmetriche. Raccomandato dalle linee guida EPA (Boylan & Russell, 2006) per il particolato, con soglia di accettabilità \( |\mathrm{MFB}| < 60\% \).
Esempio interattivo — bias
2. Errore (accuratezza)
Misurano l'entità degli scarti, indipendentemente dal segno. Valore ottimale: 0. RMSE penalizza di più gli errori grandi (picchi).
MAE — Mean Absolute Error
Errore assoluto medio: l'errore "tipico" in unità fisiche. Più robusto dell'RMSE rispetto ai valori anomali.
RMSE — Root Mean Square Error
Radice dell'errore quadratico medio: per la quadratura pesa molto gli scarti grandi, quindi è sensibile alla capacità del modello di riprodurre i picchi. Vale sempre \( \mathrm{RMSE} \ge \mathrm{MAE} \).
CRMSE — Centered RMSE
RMSE "centrato", cioè depurato dal bias medio: isola l'errore di forma/ampiezza (fase e variabilità) da quello di livello assoluto. È la quantità rappresentata sui diagrammi di Taylor.
NME — Normalized Mean Error
Errore assoluto medio normalizzato sulle osservazioni: il MAE espresso in percentuale, confrontabile tra inquinanti di scala diversa.
MFE — Mean Fractional Error
Errore frazionale simmetrico, controparte "in modulo" dell'MFB. Raccomandato dall'EPA per il PM con soglia \( \mathrm{MFE} < 75\% \).
Esempio interattivo — RMSE vs MAE
3. Correlazione (associazione)
Misurano quanto modello e osservazioni "si muovono insieme" nel tempo, indipendentemente da bias e scala. Valore ottimale: 1.
R — Coefficiente di correlazione di Pearson
Misura la forza della relazione lineare. Non vede né il bias né la differenza di ampiezza: un modello può avere \( r=1 \) pur essendo traslato o scalato. Va quindi sempre accompagnato da un indice di bias e da uno di variabilità.
R² — Coefficiente di determinazione
Quadrato di Pearson: frazione della varianza delle osservazioni spiegata linearmente dal modello (es. \( R^2 = 0.8 \) → 80% della variabilità). È ridondante con R, quindi di norma non viene pesato nello score, ma resta selezionabile.
Spearman — Correlazione di rango
È il coefficiente di Pearson calcolato sui ranghi dei dati (\( R_{o_i} \) e \( R_{m_i} \)): misura l'associazione monotòna (non solo lineare) ed è robusto rispetto a outlier e distribuzioni asimmetriche.
Solo in assenza di ranghi ripetuti (nessun valore uguale) si riduce alla forma compatta \( \rho = 1 - \dfrac{6\sum_i d_i^{\,2}}{n\left(n^2-1\right)} \), con \( d_i = R_{o_i}-R_{m_i} \). Il calcolo effettivo usa la definizione generale, corretta per i ranghi ripetuti (ties), non l'approssimazione. Utile dove la relazione è non lineare (es. SO2, O3, NOx).
MI — Mutual Information (informazione mutua)
Misura la dipendenza generale tra osservato e modello, anche non lineare e non monotòna: quanta incertezza su una variabile si riduce conoscendo l'altra. A differenza di R e Spearman, coglie qualsiasi forma di relazione.
Stimata con un istogramma 2D delle due serie: vale 0 se osservato e modello sono indipendenti e cresce con la dipendenza. Attenzione: misura la dipendenza, non l'accordo — resta alta anche per un modello fortemente distorto o anti-correlato (ignora bias e scala) e non è normalizzata. Per questo in UISH ha peso 0: è prevista come diagnostico di dipendenza non lineare per altri progetti.
Esempio interattivo — correlazione (R, R², Spearman, MI)
4. Efficienza (skill score complessivi)
Indici sintetici che combinano più aspetti in un unico punteggio. Valore ottimale: 1.
IOA — Index of Agreement (Willmott)
Misura l'accordo complessivo normalizzando l'errore quadratico rispetto alla massima differenza possibile. \( d=1 \) accordo perfetto, \( d=0 \) nessun accordo.
KGE — Kling-Gupta Efficiency
Scompone esplicitamente la performance in tre componenti — correlazione \( r \), bias \( \beta \) e variabilità \( \gamma \) — e le combina. È uno skill score molto informativo: un valore basso indica subito quale delle tre componenti è carente.
NSE — Nash-Sutcliffe Efficiency
Confronta l'errore del modello con la variabilità delle osservazioni. \( \mathrm{NSE}=1 \) modello perfetto; \( \mathrm{NSE}=0 \) il modello vale quanto usare semplicemente la media osservata; \( \mathrm{NSE}<0 \) il modello è peggiore della media.
Esempio interattivo — KGE / NSE
5. Regressione e variabilità (diagnostici)
Grandezze di supporto: non entrano di norma nel punteggio pesato ma aiutano a interpretare gli altri indici (sono usate nello scatter plot e nel diagramma di Taylor).
Pendenza e intercetta (regressione lineare)
Retta di regressione del modello sulle osservazioni. La pendenza \( a \) indica un errore proporzionale (di scala/ampiezza), l'intercetta \( b \) un errore costante (offset). Idealmente \( a=1 \) e \( b=0 \).
Deviazioni standard e loro rapporto
Misurano la variabilità di osservazioni e modello. Il rapporto delle deviazioni standard dice se il modello riproduce l'ampiezza delle fluttuazioni: >1 il modello è troppo "mosso", <1 troppo piatto. È una delle coordinate del diagramma di Taylor.
6. Indici categorici su soglia
Non valutano il valore continuo ma la capacità del modello di individuare gli eventi, cioè i superamenti di una soglia \( \tau \) (es. un limite normativo). Si costruiscono dalla matrice di contingenza che classifica ogni istante secondo soglia osservata e modellata:
| Osservato \( \ge \tau \) | Osservato \( < \tau \) | |
|---|---|---|
| Modello \( \ge \tau \) | \( a \) — hit | \( b \) — falso allarme |
| Modello \( < \tau \) | \( c \) — mancato allarme | \( d \) — corretto negativo |
POD — Probability of Detection
Frazione di eventi reali correttamente individuati dal modello (tasso di rilevazione). Non penalizza i falsi allarmi: va letto insieme al FAR.
FAR — False Alarm Ratio
Frazione di allarmi del modello che si rivelano falsi. Da solo può essere "barato" non allarmando mai: complementare al POD.
CSI — Critical Success Index
Combina hit, falsi allarmi e mancati allarmi in un unico punteggio (ignora i corretti negativi \( d \), spesso numerosissimi). Buon riassunto della qualità di detection degli eventi.
HSS — Heidke Skill Score
Misura l'abilità del modello rispetto a una previsione casuale: \( \mathrm{HSS}=1 \) detection perfetta, \( \mathrm{HSS}=0 \) equivalente al caso, \( \mathrm{HSS}<0 \) peggiore del caso. Tiene conto anche dei corretti negativi.