Basi statistiche
Anticorrelazione fotochimica NO2/O3
La correlazione incrociata NO2/O3 (anticorrelazione fotochimica) è un classico plot diagnostico per la qualità dati.
Il ciclo NO2/O3 è un fenomeno intragiornaliero guidato dalla radiazione solare. Nelle ore notturne (es. 22:00–06:00) la fotochimica è spenta e il segnale è solo deposizione/emissione.
Cosa cercare nel grafico: l'anticorrelazione fotochimica si manifesta come una nuvola orientata in senso diagonale NO2↑/O3↓ al mattino (traffico, emissioni) e NO2↓/O3↑ nelle ore centrali (fotolisi). Con la legenda per ora del giorno si dovrebbe notare il ciclo orario come un loop, tipicamente ellittico o a ferro di cavallo.
Con la legenda per mese invece che per ora, emerge la stagionalità: O3 alto in estate, NO2 relativamente basso; O3 basso in inverno, NO2 alto.
Coefficiente di correlazione di Pearson
Interpretazione:
- r ≈ −0.7 / −0.9 nelle ore 22:00–06:00 → anticorrelazione fotochimica ben definita
- r vicino a 0 → ora in cui il ciclo è perturbato (emissioni locali, trasporto)
- r positivo → segnale anomalo, possibile episodio vulcanico (SO2 che interferisce con O3)
Il coefficiente di Pearson misura solo la forza della relazione lineare tra due variabili. Da solo non valida né invalida un modello. Cosa può dire:
- Se r(NO2, O3) del modello è significativamente diverso da r calcolato su dati osservati reali → il modello non riproduce correttamente la dinamica fotochimica
- Se r varia per ora in modo diverso tra modello e osservazioni → il modello sbaglia la temporizzazione del ciclo
Nel contesto specifico NO2/O3 il Pearson è utile come diagnostico interno al modello: verifica che il modello riproduca l'anticorrelazione attesa dalla chimica di Leighton. Se il modello produce r positivo dove la fotochimica prevede r negativo, c'è un errore strutturale nel meccanismo chimico, indipendentemente dai valori assoluti.
Per una validazione completa servono dati osservati (stazioni ARPA/EEA) da confrontare con l'output del modello sullo stesso dominio spazio-temporale.
Cosa aspettarsi: dipende dal meccanismo dominante.
- Anticorrelazione massima in inverno, se il segnale è dominato
dalla reazione di Leighton:
\[ \ce{NO + O3 -> NO2 + O2} \]
Reazione diretta, lineare, non fotochimica. Di notte in inverno questo è l'unico meccanismo attivo → r molto negativo e stabile. - Anticorrelazione massima in estate — se il segnale è dominato
dalla fotolisi:
\[ \ce{NO2 + h\nu -> NO + O(^3P) -> O3} \]
Alta radiazione UV → ciclo fotochimico completo e rapido → anticorrelazione marcata nelle ore diurne/serali.
Nelle ore notturne (22:00–06:00), specificamente, la fotolisi è assente o trascurabile → il meccanismo dominante è Leighton → l'anticorrelazione è più marcata in inverno, coerentemente con i dati di Catania analizzati.
Perché in inverno l'anticorrelazione è forte:
- Notti lunghe → le ore 22:00–06:00 coprono un ciclo chimico completo
- Temperatura bassa → minore volatilità dei COV, chimica più lineare
- Il ciclo NO2/O3 è dominato dalla reazione di Leighton: NO + O3 → NO2 + O2, ben definita e prevedibile
Perché in estate si indebolisce o si inverte:
- Fotochimica secondaria: alta radiazione UV produce O3 anche di notte per ossidazione di COV e CH4, rompendo la relazione lineare NO2/O3
- Trasporto a lungo raggio: masse d'aria ricche di O3 troposferico trasportate da sud/est (Mediterraneo, Nord Africa) aggiungono O3 indipendentemente dal NO2 locale
- Nel caso specifico (Etna): l'estate è la stagione di maggiore attività degassante: SO2 e particolato vulcanico perturbano la chimica dell'ozono in modo non lineare
Il p-value
Il p-value è la probabilità di osservare un risultato uguale o più estremo di quello misurato, assumendo che l'ipotesi nulla sia vera.
Nel contesto del coefficiente di Pearson:
- Ipotesi nulla (H0): non esiste correlazione tra NO2 e O3 nella popolazione (r = 0)
- Ipotesi alternativa (H1): esiste una correlazione (r ≠ 0)
p = 0.003 significa: "se NO2 e O3 fossero realmente incorrelati, ci sarebbe solo lo 0.3% di probabilità di ottenere per caso un r così lontano da zero con questi dati"
Soglie convenzionali:
| p | Notazione | Interpretazione |
|---|---|---|
| < 0.05 | * | Significativo |
| < 0.01 | ** | Molto significativo |
| < 0.001 | *** | Altamente significativo |
| ≥ 0.05 | n.s. | Non significativo |
Dalla statistica t:
ove:
- r = coefficiente di Pearson
- n = numero di coppie di dati
- t segue una distribuzione t di Student con ν=n−2 gradi di libertà
Il p-value a due code:
ove Ft(∣t∣,ν) è la CDF (Cumulative Distribution Function) della distribuzione t di Student - non ha forma chiusa elementare, si esprime tramite la funzione beta incompleta regolarizzata:
Nel codice viene usata l'approssimazione di Abramowitz & Stegun della funzione beta incompleta, valida per n>10 e ∣r∣ non troppo vicino a 1.
Animazione interattiva di esempio
In questa animazione interattiva l'utente modifica il valore di r o il numero di punti e vede istantaneamente la nuvola di punti deformarsi, il valore di t aggiornarsi e le code della distribuzione allargarsi/restringersi:
- Pannello sinistro: scatter con punti generati sinteticamente con correlazione r target (metodo Cholesky: )
- Pannello destro: curva t di Student calcolata numericamente, con le code colorate come serie areali separate (coda sx, centro, coda dx = tre serie sovrapposte)
Come funziona:
- Slider r: genera punti sintetici con correlazione target via (decomposizione di Cholesky per due variabili)
- Slider n: cambia il numero di punti; con n piccolo e r moderato vedrai il p-value non significativo anche con correlazione visivamente evidente
- ↻ Rigenera: nuovi punti casuali con gli stessi parametri, mostra la variabilità campionaria di r
- Coda rossa: l'area colorata è esattamente p/2 per ogni coda; si allarga/restringe in tempo reale
- Linee tratteggiate: posizione di ±tobs sulla distribuzione