Indici di validazione

Indici statistici per la validazione del modello

Questa pagina descrive in dettaglio gli indici utilizzati nella validazione per confrontare i valori modellati con quelli osservati dalle centraline. Ogni indice misura un aspetto diverso dell'accordo modello-osservazioni (bias sistematico, errore, correlazione, capacità di riprodurre la variabilità, capacità di individuare i superamenti di soglia): per una valutazione robusta vanno letti insieme, non singolarmente.

Notazione. Per ogni coppia di valori allineati nel tempo: \( o_i \) = valore osservato, \( m_i \) = valore modellato, con \( i = 1 \dots n \) (numero di coppie valide). Le medie sono indicate con \( \bar o \) e \( \bar m \), le deviazioni standard con \( \sigma_o \) e \( \sigma_m \). Gli indici frazionali e normalizzati (NMB, NME, MFB, MFE) hanno senso solo per grandezze non negative (concentrazioni); per grandezze che cambiano segno usare gli indici "assoluti" (MB, MAE, RMSE, R, KGE, NSE).

1. Bias (errore sistematico)

Misurano la tendenza media del modello a sovrastimare (valore positivo) o sottostimare (valore negativo) le osservazioni. Valore ottimale: 0.

MB — Mean Bias

\[ \mathrm{MB} = \frac{1}{n}\sum_{i=1}^{n}\left(m_i - o_i\right) \]

Intervallo: \( (-\infty, +\infty) \) · Ottimale: 0 · Unità: come la grandezza.

Bias medio nelle unità fisiche del fenomeno. È il più immediato da interpretare ma dipende dalla scala: utile soprattutto per concentrazioni basse, dove gli indici percentuali diventano instabili.

NMB — Normalized Mean Bias

\[ \mathrm{NMB} = \frac{\sum_{i=1}^{n}\left(m_i - o_i\right)}{\sum_{i=1}^{n} o_i}\times 100 \]

Intervallo: \( (-100, +\infty) \) (%) · Ottimale: 0 · Solo grandezze positive.

Bias normalizzato sulla somma delle osservazioni: esprime in percentuale la sovra/sottostima complessiva. È il riferimento tipico per la valutazione normativa (es. media annuale di NO2).

MFB — Mean Fractional Bias

\[ \mathrm{MFB} = \frac{1}{n}\sum_{i=1}^{n}\frac{m_i - o_i}{\left(m_i + o_i\right)/2}\times 100 \]

Intervallo: \( [-200, +200] \) (%) · Ottimale: 0 · Solo grandezze positive.

Bias frazionale simmetrico e limitato: pesa allo stesso modo sovrastime e sottostime ed è robusto rispetto agli outlier e alle distribuzioni asimmetriche. Raccomandato dalle linee guida EPA (Boylan & Russell, 2006) per il particolato, con soglia di accettabilità \( |\mathrm{MFB}| < 60\% \).

Esempio interattivo — bias

2. Errore (accuratezza)

Misurano l'entità degli scarti, indipendentemente dal segno. Valore ottimale: 0. RMSE penalizza di più gli errori grandi (picchi).

MAE — Mean Absolute Error

\[ \mathrm{MAE} = \frac{1}{n}\sum_{i=1}^{n}\left|m_i - o_i\right| \]

Intervallo: \( [0, +\infty) \) · Ottimale: 0 · Unità: come la grandezza.

Errore assoluto medio: l'errore "tipico" in unità fisiche. Più robusto dell'RMSE rispetto ai valori anomali.

RMSE — Root Mean Square Error

\[ \mathrm{RMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(m_i - o_i\right)^2} \]

Intervallo: \( [0, +\infty) \) · Ottimale: 0 · Unità: come la grandezza.

Radice dell'errore quadratico medio: per la quadratura pesa molto gli scarti grandi, quindi è sensibile alla capacità del modello di riprodurre i picchi. Vale sempre \( \mathrm{RMSE} \ge \mathrm{MAE} \).

CRMSE — Centered RMSE

\[ \mathrm{CRMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}\Big[\left(m_i-\bar m\right)-\left(o_i-\bar o\right)\Big]^2} = \sqrt{\mathrm{RMSE}^2 - \mathrm{MB}^2} \]

Intervallo: \( [0, +\infty) \) · Ottimale: 0 · Unità: come la grandezza.

RMSE "centrato", cioè depurato dal bias medio: isola l'errore di forma/ampiezza (fase e variabilità) da quello di livello assoluto. È la quantità rappresentata sui diagrammi di Taylor.

NME — Normalized Mean Error

\[ \mathrm{NME} = \frac{\sum_{i=1}^{n}\left|m_i - o_i\right|}{\sum_{i=1}^{n} o_i}\times 100 \]

Intervallo: \( [0, +\infty) \) (%) · Ottimale: 0 · Solo grandezze positive.

Errore assoluto medio normalizzato sulle osservazioni: il MAE espresso in percentuale, confrontabile tra inquinanti di scala diversa.

MFE — Mean Fractional Error

\[ \mathrm{MFE} = \frac{1}{n}\sum_{i=1}^{n}\frac{\left|m_i - o_i\right|}{\left(m_i + o_i\right)/2}\times 100 \]

Intervallo: \( [0, 200] \) (%) · Ottimale: 0 · Solo grandezze positive.

Errore frazionale simmetrico, controparte "in modulo" dell'MFB. Raccomandato dall'EPA per il PM con soglia \( \mathrm{MFE} < 75\% \).

Esempio interattivo — RMSE vs MAE

3. Correlazione (associazione)

Misurano quanto modello e osservazioni "si muovono insieme" nel tempo, indipendentemente da bias e scala. Valore ottimale: 1.

R — Coefficiente di correlazione di Pearson

\[ r = \frac{\sum_{i=1}^{n}\left(o_i-\bar o\right)\left(m_i-\bar m\right)}{\sqrt{\sum_{i=1}^{n}\left(o_i-\bar o\right)^2}\;\sqrt{\sum_{i=1}^{n}\left(m_i-\bar m\right)^2}} \]

Intervallo: \( [-1, +1] \) · Ottimale: +1 · Adimensionale.

Misura la forza della relazione lineare. Non vede né il bias né la differenza di ampiezza: un modello può avere \( r=1 \) pur essendo traslato o scalato. Va quindi sempre accompagnato da un indice di bias e da uno di variabilità.

R² — Coefficiente di determinazione

\[ R^2 = r^2 \]

Intervallo: \( [0, 1] \) · Ottimale: 1 · Adimensionale.

Quadrato di Pearson: frazione della varianza delle osservazioni spiegata linearmente dal modello (es. \( R^2 = 0.8 \) → 80% della variabilità). È ridondante con R, quindi di norma non viene pesato nello score, ma resta selezionabile.

Spearman — Correlazione di rango

È il coefficiente di Pearson calcolato sui ranghi dei dati (\( R_{o_i} \) e \( R_{m_i} \)): misura l'associazione monotòna (non solo lineare) ed è robusto rispetto a outlier e distribuzioni asimmetriche.

\[ \rho = \frac{\sum_{i}\left(R_{o_i}-\bar R_o\right)\left(R_{m_i}-\bar R_m\right)}{\sqrt{\sum_{i}\left(R_{o_i}-\bar R_o\right)^2}\;\sqrt{\sum_{i}\left(R_{m_i}-\bar R_m\right)^2}} \]

Intervallo: \( [-1, +1] \) · Ottimale: +1 · Adimensionale.

Solo in assenza di ranghi ripetuti (nessun valore uguale) si riduce alla forma compatta \( \rho = 1 - \dfrac{6\sum_i d_i^{\,2}}{n\left(n^2-1\right)} \), con \( d_i = R_{o_i}-R_{m_i} \). Il calcolo effettivo usa la definizione generale, corretta per i ranghi ripetuti (ties), non l'approssimazione. Utile dove la relazione è non lineare (es. SO2, O3, NOx).

MI — Mutual Information (informazione mutua)

Misura la dipendenza generale tra osservato e modello, anche non lineare e non monotòna: quanta incertezza su una variabile si riduce conoscendo l'altra. A differenza di R e Spearman, coglie qualsiasi forma di relazione.

\[ I(O;M) = \sum_{i}\sum_{j} p(o_i,m_j)\,\log\frac{p(o_i,m_j)}{p(o_i)\,p(m_j)} \]

Intervallo: \( [0, +\infty) \) · Ottimale: massima · In nat (logaritmo naturale).

Stimata con un istogramma 2D delle due serie: vale 0 se osservato e modello sono indipendenti e cresce con la dipendenza. Attenzione: misura la dipendenza, non l'accordo — resta alta anche per un modello fortemente distorto o anti-correlato (ignora bias e scala) e non è normalizzata. Per questo in UISH ha peso 0: è prevista come diagnostico di dipendenza non lineare per altri progetti.

Esempio interattivo — correlazione (R, R², Spearman, MI)

4. Efficienza (skill score complessivi)

Indici sintetici che combinano più aspetti in un unico punteggio. Valore ottimale: 1.

IOA — Index of Agreement (Willmott)

\[ d = 1 - \frac{\sum_{i=1}^{n}\left(m_i - o_i\right)^2}{\sum_{i=1}^{n}\left(\left|m_i - \bar o\right| + \left|o_i - \bar o\right|\right)^2} \]

Intervallo: \( [0, 1] \) · Ottimale: 1 · Adimensionale.

Misura l'accordo complessivo normalizzando l'errore quadratico rispetto alla massima differenza possibile. \( d=1 \) accordo perfetto, \( d=0 \) nessun accordo.

KGE — Kling-Gupta Efficiency

\[ \mathrm{KGE} = 1 - \sqrt{\left(r-1\right)^2 + \left(\beta-1\right)^2 + \left(\gamma-1\right)^2} \]
\[ \beta = \frac{\mu_m}{\mu_o}\;\;(\text{rapporto delle medie}), \qquad \gamma = \frac{\sigma_m/\mu_m}{\sigma_o/\mu_o}\;\;(\text{rapporto dei coeff. di variazione}) \]

Intervallo: \( (-\infty, 1] \) · Ottimale: 1 · Adimensionale.

Scompone esplicitamente la performance in tre componenti — correlazione \( r \), bias \( \beta \) e variabilità \( \gamma \) — e le combina. È uno skill score molto informativo: un valore basso indica subito quale delle tre componenti è carente.

NSE — Nash-Sutcliffe Efficiency

\[ \mathrm{NSE} = 1 - \frac{\sum_{i=1}^{n}\left(o_i - m_i\right)^2}{\sum_{i=1}^{n}\left(o_i - \bar o\right)^2} \]

Intervallo: \( (-\infty, 1] \) · Ottimale: 1 · Adimensionale.

Confronta l'errore del modello con la variabilità delle osservazioni. \( \mathrm{NSE}=1 \) modello perfetto; \( \mathrm{NSE}=0 \) il modello vale quanto usare semplicemente la media osservata; \( \mathrm{NSE}<0 \) il modello è peggiore della media.

Esempio interattivo — KGE / NSE

5. Regressione e variabilità (diagnostici)

Grandezze di supporto: non entrano di norma nel punteggio pesato ma aiutano a interpretare gli altri indici (sono usate nello scatter plot e nel diagramma di Taylor).

Pendenza e intercetta (regressione lineare)

\[ m_i \approx a\,o_i + b \]

Pendenza \( a \) ottimale: 1 · Intercetta \( b \) ottimale: 0.

Retta di regressione del modello sulle osservazioni. La pendenza \( a \) indica un errore proporzionale (di scala/ampiezza), l'intercetta \( b \) un errore costante (offset). Idealmente \( a=1 \) e \( b=0 \).

Deviazioni standard e loro rapporto

\[ \sigma_o = \sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(o_i-\bar o\right)^2}, \qquad \sigma_m = \sqrt{\frac{1}{n}\sum_{i=1}^{n}\left(m_i-\bar m\right)^2}, \qquad \text{rapporto} = \frac{\sigma_m}{\sigma_o} \]

Rapporto \( \sigma_m/\sigma_o \) ottimale: 1.

Misurano la variabilità di osservazioni e modello. Il rapporto delle deviazioni standard dice se il modello riproduce l'ampiezza delle fluttuazioni: >1 il modello è troppo "mosso", <1 troppo piatto. È una delle coordinate del diagramma di Taylor.

6. Indici categorici su soglia

Non valutano il valore continuo ma la capacità del modello di individuare gli eventi, cioè i superamenti di una soglia \( \tau \) (es. un limite normativo). Si costruiscono dalla matrice di contingenza che classifica ogni istante secondo soglia osservata e modellata:

Osservato \( \ge \tau \)Osservato \( < \tau \)
Modello \( \ge \tau \)\( a \) — hit\( b \) — falso allarme
Modello \( < \tau \)\( c \) — mancato allarme\( d \) — corretto negativo

POD — Probability of Detection

\[ \mathrm{POD} = \frac{a}{a + c} \]

Intervallo: \( [0, 1] \) · Ottimale: 1.

Frazione di eventi reali correttamente individuati dal modello (tasso di rilevazione). Non penalizza i falsi allarmi: va letto insieme al FAR.

FAR — False Alarm Ratio

\[ \mathrm{FAR} = \frac{b}{a + b} \]

Intervallo: \( [0, 1] \) · Ottimale: 0.

Frazione di allarmi del modello che si rivelano falsi. Da solo può essere "barato" non allarmando mai: complementare al POD.

CSI — Critical Success Index

\[ \mathrm{CSI} = \frac{a}{a + b + c} \]

Intervallo: \( [0, 1] \) · Ottimale: 1.

Combina hit, falsi allarmi e mancati allarmi in un unico punteggio (ignora i corretti negativi \( d \), spesso numerosissimi). Buon riassunto della qualità di detection degli eventi.

HSS — Heidke Skill Score

\[ \mathrm{HSS} = \frac{2\left(ad - bc\right)}{\left(a+c\right)\left(c+d\right) + \left(a+b\right)\left(b+d\right)} \]

Intervallo: \( (-\infty, 1] \) · Ottimale: 1 · \( 0 \) = nessuna abilità.

Misura l'abilità del modello rispetto a una previsione casuale: \( \mathrm{HSS}=1 \) detection perfetta, \( \mathrm{HSS}=0 \) equivalente al caso, \( \mathrm{HSS}<0 \) peggiore del caso. Tiene conto anche dei corretti negativi.

Nota: gli indici categorici dipendono dalla soglia \( \tau \) scelta (di norma un valore limite normativo) e sono calcolati nel backend; nella pagina di validazione si seleziona il riferimento di soglia.

Esempio interattivo — indici categorici su soglia

Moreno Comelli, Ugo Cortesi, Valentina Colcelli & Alessandra Langella, CNR-IFAC, 2022-2026