Basi statistiche

Anticorrelazione fotochimica NO₂/O₃

La correlazione incrociata NO₂/O₃ (anticorrelazione fotochimica) è un classico plot diagnostico per la qualità dati.

Il ciclo NO₂/O₃ è un fenomeno intragiornaliero guidato dalla radiazione solare. Nelle ore notturne (es. 22:00–06:00) la fotochimica è spenta e il segnale è solo deposizione/emissione.

Cosa cercare nel grafico: l'anticorrelazione fotochimica si manifesta come una nuvola orientata in senso diagonale NO₂↑/O₃↓ al mattino (traffico, emissioni) e NO₂↓/O₃↑ nelle ore centrali (fotolisi). Con la legenda per ora del giorno si dovrebbe notare il ciclo orario come un loop, tipicamente ellittico o a ferro di cavallo.

Con la legenda per mese invece che per ora, emerge la stagionalità: O₃ alto in estate, NO₂ relativamente basso; O₃ basso in inverno, NO₂ alto.

Coefficiente di correlazione di Pearson

Interpretazione:

r ≈ −0.7 / −0.9 nelle ore 22:00–06:00 → anticorrelazione fotochimica ben definita
r vicino a 0 → ora in cui il ciclo è perturbato (emissioni locali, trasporto)
r positivo → segnale anomalo, possibile episodio vulcanico (SO₂ che interferisce con O₃)

Il coefficiente di Pearson misura solo la forza della relazione lineare tra due variabili. Da solo non valida né invalida un modello. Cosa può dire:

Se r(NO₂, O₃) del modello è significativamente diverso da r calcolato su dati osservati reali → il modello non riproduce correttamente la dinamica fotochimica
Se r varia per ora in modo diverso tra modello e osservazioni → il modello sbaglia la temporizzazione del ciclo

Nel contesto specifico NO₂/O₃ il Pearson è utile come diagnostico interno al modello: verifica che il modello riproduca l'anticorrelazione attesa dalla chimica di Leighton. Se il modello produce r positivo dove la fotochimica prevede r negativo, c'è un errore strutturale nel meccanismo chimico, indipendentemente dai valori assoluti.

Per una validazione completa servono dati osservati (stazioni ARPA/EEA) da confrontare con l'output del modello sullo stesso dominio spazio-temporale.

Cosa aspettarsi: dipende dal meccanismo dominante.

Anticorrelazione massima in inverno, se il segnale è dominato dalla reazione di Leighton:

\[ \ce{NO + O3 -> NO2 + O2} \]

Reazione diretta, lineare, non fotochimica. Di notte in inverno questo è l'unico meccanismo attivo → r molto negativo e stabile.
Anticorrelazione massima in estate — se il segnale è dominato dalla fotolisi:

\[ \ce{NO2 + h\nu -> NO + O(^3P) -> O3} \]

Alta radiazione UV → ciclo fotochimico completo e rapido → anticorrelazione marcata nelle ore diurne/serali.

Nelle ore notturne (22:00–06:00), specificamente, la fotolisi è assente o trascurabile → il meccanismo dominante è Leighton → l'anticorrelazione è più marcata in inverno, coerentemente con i dati di Catania analizzati.

Perché in inverno l'anticorrelazione è forte:

Notti lunghe → le ore 22:00–06:00 coprono un ciclo chimico completo
Temperatura bassa → minore volatilità dei COV, chimica più lineare
Il ciclo NO₂/O₃ è dominato dalla reazione di Leighton: NO + O₃ → NO₂ + O₂, ben definita e prevedibile

Perché in estate si indebolisce o si inverte:

Fotochimica secondaria: alta radiazione UV produce O₃ anche di notte per ossidazione di COV e CH₄, rompendo la relazione lineare NO₂/O₃
Trasporto a lungo raggio: masse d'aria ricche di O₃ troposferico trasportate da sud/est (Mediterraneo, Nord Africa) aggiungono O₃ indipendentemente dal NO₂ locale
Nel caso specifico (Etna): l'estate è la stagione di maggiore attività degassante: SO₂ e particolato vulcanico perturbano la chimica dell'ozono in modo non lineare

Il p-value

Il p-value è la probabilità di osservare un risultato uguale o più estremo di quello misurato, assumendo che l'ipotesi nulla sia vera.

Nel contesto del coefficiente di Pearson:

Ipotesi nulla (H₀): non esiste correlazione tra NO₂ e O₃ nella popolazione (r = 0)
Ipotesi alternativa (H₁): esiste una correlazione (r ≠ 0)

p = 0.003 significa: "se NO₂ e O₃ fossero realmente incorrelati, ci sarebbe solo lo 0.3% di probabilità di ottenere per caso un r così lontano da zero con questi dati"

Soglie convenzionali:

p	Notazione	Interpretazione
< 0.05	*	Significativo
< 0.01	**	Molto significativo
< 0.001	***	Altamente significativo
≥ 0.05	n.s.	Non significativo

Dalla statistica t:

ove:

r = coefficiente di Pearson
n = numero di coppie di dati
t segue una distribuzione t di Student con ν=n−2 gradi di libertà

Il p-value a due code:

ove F_t(∣t∣,ν) è la CDF (Cumulative Distribution Function) della distribuzione t di Student - non ha forma chiusa elementare, si esprime tramite la funzione beta incompleta regolarizzata:

Nel codice viene usata l'approssimazione di Abramowitz & Stegun della funzione beta incompleta, valida per n>10 e ∣r∣ non troppo vicino a 1.

Animazione interattiva di esempio

In questa animazione interattiva l'utente modifica il valore di r o il numero di punti e vede istantaneamente la nuvola di punti deformarsi, il valore di t aggiornarsi e le code della distribuzione allargarsi/restringersi:

Pannello sinistro: scatter con punti generati sinteticamente con correlazione r target (metodo Cholesky: )
Pannello destro: curva t di Student calcolata numericamente, con le code colorate come serie areali separate (coda sx, centro, coda dx = tre serie sovrapposte)

r = −0.70 n = 60

Come funziona:

Slider r: genera punti sintetici con correlazione target via (decomposizione di Cholesky per due variabili)
Slider n: cambia il numero di punti; con n piccolo e r moderato vedrai il p-value non significativo anche con correlazione visivamente evidente
↻ Rigenera: nuovi punti casuali con gli stessi parametri, mostra la variabilità campionaria di r
Coda rossa: l'area colorata è esattamente p/2 per ogni coda; si allarga/restringe in tempo reale
Linee tratteggiate: posizione di ±t_obs sulla distribuzione