Introduzione
Nel mondo scientifico, la matematica è il pilastro su cui poggia ogni nostra dimostrazione. Ultimamente, anche contro ogni buon senso, quando non si è in grado di contro-argomentare qualcosa si utilizza la frase: “Cita le tue fonti”. Questa pia illusione poggia sul fatto che se un articolo è stato pubblicato, dei tuoi pari l’hanno letto e gli hanno fatto le pulci, fino a ritenere che l’articolo sia scevro di ogni possibile errore logico o materiale. Purtroppo non è così e spesso vengono pubblicati articoli che contengono diversi errori, che vengono propagati senza che nessuno si ponga il benché minimo dubbio o pensiero critico, tanto l’avrebbe dovuto già fare qualcuno. In questo articolo vi farò toccare con mano uno dei tanti casi che mi sono capitati sotto al naso.
I prodromi
Una decina d’anni fa, fine 2017 inizio 2018, stavo iniziando a strudiare come intercettare i soggetti pre-diabetici. Volevo vedere se c’era una tecnica numerica che identificare le forme delle curve da carico. All’epoca, inoltre, volevo capire se si poteva sfruttare il Peptide-C per trarre qualche informazione. Così, sono andato a vedere il sito della Società Italiana di Diabetologia (ho pensato, nella mia ingenuità, se non lo sanno loro….) e ho trovato questa pagina: https://www.siditalia.it/clinica/formule-e-calcolatori/whoshcp
Mi sono scaricato il lavoro di riferimento (Tura A, Morbiducci U, Sbrignadello S, Winhofer Y, Pacini G, Kautzky-Willer A. Shape of glucose, insulin, C-peptide curves during a 3-h oral glucose tolerance test: any relationship with the degree of glucose tolerance? Am J Physiol Regul Integr Comp Physiol. 2011;300:R941-8). Se volete, potete scaricarlo anche voi da questo link e leggerlo.
La cosa m’intrigava perché l’indice si basa sul calcolo della media dei valori assoluti delle derivate seconde. Può sembrare una cosa difficile, in realtà è abbastanza semplice e anche uno studente delle scuole medie non dovrebbe avere grosse difficoltà a calcolare con carta e penna, si tratta semplicemente di qualche sottrazione e divisione. Questo metodo può essere applicato alla curva glicemica, alla curva insulinemica e alla curva del peptide C. Inoltre c’è anche un foglio excel (che loro hanno protetto dalla modifica… illusi…) per calcolare il tutto. Poiché sono molto interessato all’analisi delle curve che otteniamo dal carico orale di glucosio, un nuovo modello matematico è qualcosa da leggere con molta attenzione.
Matematica e calcolo differenziale
Nel file excel c’è un esempio e io cerco di replicarlo ma… il risultato è diverso, di poco ma è diverso. Sproteggo il file in 5 secondi e leggo le celle e, ovviamente, c’è un errore di calcolo nella derivata seconda.
La derivata prima
Ma procediamo con calma e cerchiamo di capire di cosa stiamo parlando.
Quando abbiamo un qualcosa che varia nel tempo, la derivata prima rappresenta la velocità con cui cambia mentre la derivata seconda rappresenta l’accelerazione con cui cambia. Nel file excel scaricato vediamo i seguenti dati
Punto | Tempo (min) | Peptide C (pmol/L) |
1 | 0 | 1017.825 |
2 | 10 | 1913.180 |
3 | 20 | 2204.460 |
4 | 30 | 2803.570 |
5 | 60 | 3641.000 |
6 | 90 | 5064.300 |
7 | 120 | 4269.900 |
8 | 150 | 4303.000 |
9 | 180 | 4071.300 |
Per calcolare la velocità con cui cambia il Peptide C devo calcolare la differenza di quantità e di tempo tra due punti e poi fare il rapporto, per esempio: (1913.180-1017.825)/(10-0)=89.5355
Punto | Tempo (t) | Peptide C (x) | Δx | Δt | v=Δx/Δt |
1 | 0 | 1017.825 | |||
2 | 10 | 1913.180 | 895.355 | 10 | 89.5355 |
3 | 20 | 2204.460 | 291.280 | 10 | 29.1280 |
4 | 30 | 2803.570 | 599.110 | 10 | 59.9110 |
5 | 60 | 3641.000 | 837.430 | 30 | 27.9143 |
6 | 90 | 5064.300 | 1423.300 | 30 | 47.4433 |
7 | 120 | 4269.900 | -794.400 | 30 | -26.4800 |
8 | 150 | 4303.000 | 33.100 | 30 | 1.1033 |
9 | 180 | 4071.300 | -231.700 | 30 | -7.7233 |
Come si legge? Per passare dal punto 1 al punto 2, il Peptide C è aumentato di 895.355 pmol/L in 10 minuti e quindi la velocità è 89.5355 pmol/L al minuto.
La derivata seconda
Analogamente, per calcolare l’accelerazione devo calcolare la differenza di velocità e di tempo tra due punti e poi fare il rapporto.
Punto | Tempo (t) | Peptide C (x) | Δx | Δt | v=Δx/Δt | Δv | Δt | a=Δv/Δt |
1 | 0 | 1017.825 | ||||||
2 | 10 | 1913.180 | 895.355 | 10 | 89.5355 | |||
3 | 20 | 2204.460 | 291.280 | 10 | 29.1280 | -60.4075 | 10 | -6.0408 |
4 | 30 | 2803.570 | 599.110 | 10 | 59.9110 | 30.7830 | 10 | 3.0783 |
5 | 60 | 3641.000 | 837.430 | 30 | 27.9143 | -31.9967 | 10 | -3.1997 |
6 | 90 | 5064.300 | 1423.300 | 30 | 47.4433 | 19.5290 | 30 | 0.6510 |
7 | 120 | 4269.900 | -794.400 | 30 | -26.4800 | -73.9233 | 30 | -2.4641 |
8 | 150 | 4303.000 | 33.100 | 30 | 1.1033 | 27.5833 | 30 | 0.9194 |
9 | 180 | 4071.300 | -231.700 | 30 | -7.7233 | -8.8267 | 30 | -0.2942 |
Quindi, per esempio, la velocità rallenta con un’accelerazione di 6.0408 pmol/L al minuto2.
Se confrontiamo quanto abbiamo calcolato noi con quanto riportato sul file excel, abbiamo:
Tabella 4: Confronto tra quanto calcolato da me e quanto calcolato dal foglio Excel
v calcolata da me | v calcolata dal foglio Excel | a calcolata da me | a calcolata dal foglio Excel |
---|---|---|---|
89.5355 | 89.5355 | | |
29.1280 | 29.1280 | -6.0408 | -6.0408 |
59.9110 | 59.9110 | 3.0783 | 3.0783 |
27.9143 | 27.9143 | -3.1997 | -1.2799 |
47.4433 | 47.4433 | 0.6510 | 0.6510 |
-26.4800 | -26.4800 | -2.4641 | -4.9282 |
1.1033 | 1.1033 | 0.9194 | 0.9194 |
-7.7233 | -7.7233 | -0.2942 | -0.2942 |
Media del valore assoluto | 2.3782 | 2.4560 |
Appare evidente che c’è un errore sul Δt utilizzato per calcolare le derivate seconde, visto che c’è corrispondenza con le derivate prime.
Se il buongiorno si vede dal mattino, ho pensato che fosse meglio andare a leggere l’articolo e cercare di capirci qualcosa
Matematica e statistica: il tallone di Achille
Come mia abitudine, salto a piè pari tutto e vado diritto ai numeri e ho avuto l’ennesima conferma che no, medici e numeri non vanno molto d’accordo.
La distribuzione di Gauss: la media e la deviazione standard
Quando si misura un qualcosa molte volte è possibile che queste misure si distribuiscano in maniera gaussiana (curva a campana di Gauss).
La distribuzione può essere riassunta dando solo 2 parametri:
- la media (il valore centrale della campana, in verde, μ nella formula). La media è il massimo assoluto della funzione di Gauss
- la deviazione standard (l’ampiezza della campana, il tratto che congiunge un punto rosso con la linea verde, σ nella formula). I due punti rossi: media±deviazione standard sono i “punti di flesso” della curva di Gauss e sono i punti in cui la curva da concava diviene convessa (o viceversa).
Incominciamo a vedere il primo errore di questa tabella. I dati sono riportati come media ed errore standard della media. Che significa? Quando si hanno tante misure distribuite in maniera gaussiana, possiamo stabilire quale sia l’errore con cui ho stimato la media perché l’intervallo sarà media±1.96*ES.
Prendiamo una glicemia basale di uno qualsiasi dei gruppi (il primo per esempio):
5.43 mmol/L = 97.8 mg/dL (media) e l’errore standard è 0.007 mmol/L.
Questo significa che la vera media del gruppo 1 sarà compresa tra:
(5.43-0.007*1.96) = 5.42 mmol/L = 97.6 mg/dL
(5.43+0.007*1.96) = 5.44 mmol/L = 98.1 mg/dL
ma non so ancora quella distribuzione quanto è larga.
Fortunatamente, esiste una precisa relazione matematica tra la deviazione standard e l’errore standard della media: sappiamo che l’errore diminuisce con la radice quadrata del numero delle misure effettuate.
ES=DS/RADQ(N)
(ES=errore standard; DS=deviazione standard; RADQ=radice quadrata; N=numero di misure)
Quindi, sapendo che nel primo gruppo sono stati analizzati 262 soggetti, la deviazione standard sarà DS=0.07*radq(262)=1.13 mmol/L=20.42 mg/dL
Matematica della distribuzione di Gauss e popolazione contenuta
Quando riassumo una distribuzione con media e deviazione standard sto dicendo una cosa molto precisa: il 99% delle mie osservazioni ricadono nell’intervallo media±2.58 deviazioni standard.
Ora prendiamo una glicemia basale di uno qualsiasi dei gruppi (il primo per esempio): 5.43 mmol/L = 97.8378 mg/dL (media)
Quindi, la glicemia dei 262 soggetti analizzati dovrebbero variare tra:
- max=97.8378+2.58*20.4153=150.5093 mg/dL
- min=97.8378-2.58*20.4153=45.1663 mg/dL
Per quanto riguarda il limite superiore, mi sta bene perché nel primo gruppo ci sono anche 36 soggetti con Diabete Mellito; ma per quanto riguarda il limite inferiore non ci siamo proprio: stiamo scherzando??? Queste sono glicemie di cadaveri, non di esseri umani: al di sotto di 54 mg/dL c’è il coma e la morte. Di conseguenza queste misure NON possono essere descritte con una gaussiana perché nessun essere umano ha una glicemia di 45 mg/dL.
Matematica e statistica: test di verifica delle ipotesi
Se la matematica è la bestia nera, la statistica è il demonio in persona.
Le differenze tra i gruppi sono state studiate mediante Analisi della Varianza (ANalisys Of VAriance). Inutile dirvi che, non essendo gaussiane le variabili non potevano essere analizzate usando un test basato sulle gaussiane, ma tant’è, facciamo finta di niente.
Come noterete, c’è scritto che i gruppi sono differenti tra di loro per parecchi parametri; ma rimaniamo sulla glicemia basale. Vi riporto i dati dei 4 gruppi in mg/dL per comodità.
Gruppo 1 | Gruppo 2 | Gruppo 3 | Gruppo 4 | |
Numerosità | 262 | 76 | 201 | 37 |
Media | 97.8 | 91.2 | 88.8 | 84.5 |
Deviazione standard | 20.4 | 14.1 | 10.2 | 5.5 |
Errore standard | 1.26 | 1.62 | 0.72 | 0.90 |
Nel caso di specie, la domanda che si sta facendo al test statistico è: questi soggetti divisi in 4 gruppi, in realtà, vengono dallo stesso gruppo? Il test risponderà no: la probabilità che la tua ipotesi si verifichi (nessuna differenza tra i 4 gruppi) è talmente bassa che la rigettiamo!
Ma è ovvio! Sicuramente 97.8 e 91.2 sono due numeri differenti e l’incertezza (l’errore standard) e molto più piccola del valore medio.
Qui dovrebbe subentrare il cervello del ricercatore: il risultato è statisticamente significativo ma è anche clinicamente significativo? OVVIAMENTE NO! Tra 97.8 e 84.5 non c’è alcuna differenza clinicamente significativa.
Quando le gaussiane si sovrappongono
E a questo punto passiamo al parametro WHOSH relativo sempre alla glicemia.
Nel grafico allegato avete la rappresentazione delle “gaussiane” dei 4 gruppi. Se io ad un soggetto faccio una curva da carico, misuro la glicemia e calcolo l’indice WHOSH e questo è uguale a 1; siete in grado di dirmi a quale dei 4 gruppi appartiene? Ovviamente no perché le gaussiane sono praticamente tutte sovrapposte. E quindi a che serve questo indice? A NIENTE! Eppure il lavoro riporta differenze statisticamente significative.
Proviamo a vedere se cambia qualcosa con la curva insulinemica
Più o meno siamo nelle stesse condizioni di prima.
Terminiamo con il Peptide-C
La situazione non poteva che essere la stessa.
Conclusioni
Concludendo, non possiamo spegnere il cervello semplicemente perché un articolo è stato pubblicato. Se conosciamo la matematica e le sue leggi possiamo sempre capire se c’è un errore da qualche parte. Non si può fare il lavoro di scienziato senza conoscere profondamente la matematica e le sue implicazioni. E se sei un medico, non hai scuse lo stesso.