Le bandierine del Lancet (Centomila morti in Iraq)

Post scritto a quattro mani da delio e dal sottoscritto. Per chi si vuol far andare in anticipo il sangue in testa, anticipiamo che qui si difende a spada tratta la statistica.

Alcune settimane fa il Lancet, prestigiosa rivista medica inglese, ha pubblicato uno studio statistico (serve la registrazione, ma è aggratiss e esiste anche in versione PDF) sulla mortalità in Iraq nel periodo successivo all’attacco del marzo 2003 (piú precisamente: su quante siano state le morti in Iraq negli ultimi diciotto mesi, in confronto ai dati dei quindici mesi precedenti all’attacco). Quasi tutti i giornali hanno sintetizzato lo studio titolando: “In Iraq la guerra ha causato 100 mila morti”.
Molti blogger hanno fatto commenti pesanti e sarcastici sul fatto che non si sia trattato di una misura esatta, ma piuttosto di una specie di sondaggio; una presa in giro generale, ai livelli delle bandierine di fediana memoria.
Ma l’avete letto l’articolo?? A noi sembra che dica in realtà diverse cose: dice ad esempio che la situazione in Iraq è tanto critica da rendere difficile fare uno studio di questo tipo (una notizia già di per se, per chi crede che le truppe alleate abbiano grosso modo il controllo del territorio, Falluja a parte); e che le morti (tutte, non solo quelle violente o legate direttamente ad azioni militari ma anche quelle legate alle scarse condizioni di sicurezza del territorio, leggi: incidenti e rapine; o quelle dovute alle peggiorate condizioni del sistema medico) sono probabilmente in un numero compreso fra poche migliaia e 200mila – con valore centrale di 100 mila – IN PIÚ rispetto al periodo precedente.
Magari qualcuno ha voglia di capire come funzionano questi studi. Magari.
Supponiamo che noi volessimo sapere quante persone ci siano in Germania con gli occhi azzurri. 80 milioni di persone da controllare. Ops, un po’ troppe. Siccome non abbiamo voglia di fare una mazza, andiamo al supermercato a Stoccarda e ci mettiamo a notare le persone.


A fine giornata abbiamo controllato 500 persone, di cui 100 con gli occhi azzurri e 400 con altri colori. In pratica abbiamo fatto un sondaggio, ovvero uno studio epidemiologico (considerando gli occhi azzurri come una malattia!). Il risultato che potremmo presentare ad una rivista scientifica è:
in Germania ci sono TRA 100 e 79.999.600 persone che hanno gli occhi azzurri. Infatti 100 li abbiamo visti noi, 400 abbiamo appurato invece che hanno occhi di altri colori. Nel caso estremo, tutti gli altri tedeschi potrebbero avere gli occhi azzurri. Per cui il limite massimo sono gli 80 milioni meno i 400.
In realtà possiamo lavorare molto sul campione. Invece di andare in un solo supermercato, possiamo chiedere un po’ di soldi ad una università, e andarcene in giro per la Germania a guardare le persone negli occhi.
Alla fine potremo vedere – diciamo – 20.000 persone. Di cui – diciamo – 7.000 con gli occhi azzurri. A questo punto il nostro risultato SICURO è che in Germania ci sono tra 7.000 e le 79.987.000 persone con gli occhi azzurri. Qui finiscono le certezze ed entra in campo la teoria del calcolo delle probabilità: se il sondaggio/studio epidemiologico è fatto bene (ossia: se sono riuscito ad elaborare un campione equilibrato, cioè ho visitato luoghi e controllato tipi fisici sufficientemente rappresentativi) e se la distribuzione degli occhi azzurri può considerarsi casuale (cioè: se non è – per esempio – piú concentrata nei dintorni dei supermercati, o delle aree urbane), allora possiamo spostare il discorso.
Cioe’ NON ci occupiamo piú del problema degli occhi azzurri, ma piuttosto della bontà delle osservazioni, pesiamo in modo opportuno le misure, e infine vediamo (vi tralasciamo i particolari matematici) che tra i 7.000 e 79.987.000 ci sono delle situazioni privilegiate. Possiamo cioè arrivare a dire che c’è un 95% di probabilità che il numero dei Tedeschi con gli occhi azzurri sia compreso tra 25 e 40 milioni. L’intera misura ha un VALORE CENTRALE di 32.500.000.
Riassumiamo:

PUNTO 1: al 100% i Tedeschi con gli occhi azzurri sono almeno 7.000 e al massimo 79.987.000
PUNTO 2: al 95% sono almeno 25 milioni e al massimo 40 milioni
PUNTO 3: il VALORE CENTRALE e’ di 32.500.000

Fateci essere pallosi: l’unica certezza e’ il punto 1, quello del 100%. Il resto e’ un’estrapolazione statistica, che per essere formulata deve soddisfare alcune condizioni matematiche. Il valore atteso poi, e’ SEMPLICEMENTE il valore centrale (ottenuto sommando i due estremi – 25 e 40 milioni – e poi dividendo a metà); in altre parole, fateci essere un po’ matematico-spocchiosi, è la sommità della campana di Gauss.

Ora, proviamo a fare una simulazione: il povero studioso si fa il mazzo per arrivare al punto 1, e poi lavora col PC per tirar fuori il punto 2 e 3. Il consiglio scientifico che verifica l’articolo (altri studiosi che, protetti dall’anonimato, solitamente non vogliono altro che fare le pulci ad un collega – leggi concorrente – intraprendente e brillante; e se si tratta del Lancet, presumibilmente saranno stati colleghi MOOOLTO esperti in materia) giudica la bontà della scelta del campione e del metodo statistico: se il giudizio è positivo, si permette la pubblicazione dell’articolo su una rivista scientifica; quello che poi passa sui giornali, TV e blog è solo ed esclusivamente il punto 3: 32 milioni e mezzo di tedeschi hanno gli occhi azzurri.

Così è successo per lo studio pubblicato sul Lancet. I cui autori hanno fatto (come riconosce l’Economist) il meglio che poteva essere fatto date le circostanze, al pari dei ricercatori che sono andati in Iraq e, a rischio della loro vita, hanno intervistato moltissime persone (si parla di un migliaio di nuclei familiari, quindi diverse migliaia di cittadini iracheni). In molti casi hanno verificato le informazioni dichiarate dagli intervistati chiedendo i certificati di morte (e quasi sempre i certificati di morte hanno confermato le dichiarazioni rilasciate) ed hanno eliminato i dati palesemente fuori dalla norma (cioè quelli di Falluja, dove erano concentrate UN TERZO delle morti totali riscontrate dallo studio in tutto l’Iraq, e DUE TERZI delle morti violente; il che se non altro dà un’idea della carneficina che c’è stata in quella città). Alla fine hanno prodotto quello che rimane pur sempre l’unico risultato disponibile su quella zona sfortunata. Ma, lo ripetiamo, di tutto il processo che porta alla pubblicazione, l’UNICO (UNICO, UNICO, per chi sta leggendo velocemente ripetiamo U-N-I-C-O) aspetto passibile di critiche dal punto di vista scientifico è la scelta iniziale del campione; quella su cui (presumibilmente anche nel caso del Lancet) si concentrano le attenzioni dei colleghi che devono decidere se l’articolo è pubblicabile o meno. Tutto il resto è pura elaborazione da parte di un software ad hoc. La scelta del campione non va bene? Ok, si spieghi perché: ma questo non è stato fatto da quasi nessuno dei critici dell’articolo.

A questo punto ci sono due obiezioni che spesso vengono sollevate: la prima è che intervistare 5 o 6mila Iracheni non può dare un’idea della loro totalità. È un’obiezione o molto ingenua, o molto in malafede; perché 5.000 Iracheni sono tanti, proporzionalmente quanto 20.000 Tedeschi (la Germania ha una popolazione grosso modo pari al quadruplo di quella irachena); e perché quasi tutte le rilevazioni statistiche di cui si parla solitamente (i sondaggi elettorali, per esempio), che pure sono ormai piuttosto precisi, sono basati su un numero di interviste MOOOLTO inferiore, di solito nell’ordine del
migliaio (per una popolazione, quella italiana, tripla di quella irachena).

L’altra obiezione, sollevata per esempio da un articolo di Slate, dice che non c’è niente di male a usare la statistica; ma che con un intervallo di confidenza ampio come in quello del Lancet si può fare poco. È una critica che se non altro non ipotizza una truffa dell’articolo del Lancet; e cionostante è una critica capziosa. Spieghiamo questo punto: nella nostra ipotetica inchiesta sugli occhi azzurri, al 95% il risultato corretto era tra gli estremi di 25 e di 40 milioni; nel caso del Lancet, a seguito del particolare metodo utilizzato per la selezione del campione, questo intervallo è molto piú ampio, e varia tra 8.000 e 194.000 morti (ripetiamolo: si parla del numero di morti in eccesso rispetto al periodo immediatamente precedente). Messa così, sembra uno spettro assurdamente ampio; però, e lo spiega ottimamente Marco, si può andare avanti e appurare che, con l’90% di probabilità, la cifra cercata si situa tra gli estremi di 23.000 e di 174.000, che è già un passo in avanti; oppure, con l’80% di probabilità, tra 40.000 e 160.000; o ancora, che se è pur vero che ci sono buone possibilità che il numero dei morti sia molto minore del valore centrale di 98.000, c’è il 50% di possibilità che sia SUPERIORE a quel valore.

Per concludere permetteteci qualche parolina politica, dopo tanti numeri: se qualcuno utilizza l’argomento che si è trattato di un semplice sondaggio ci viene da rispondere che questo è dovuto al fatto che la gestione del dopoguerra è stata quella che è stata, che dopo un anno e mezzo mancano sempre infrastrutture fondamentali e che non esistono registri anagrafici attendibili. Del resto, le forze armate americane dichiarano apertamente di non tenere il numero delle vittime delle operazioni militari, nonostante secondo la Convenzione di Ginevra siano loro i responsabili dell’ordine pubblico, a guerra (ufficialmente) conclusa.

(Visited 47 times, 1 visits today)

40 Commenti

  1. Aggiungerei che chi non si fida di un articolo scientifico uscito sul Lancet e statisticamente organizzato così farebbe bene a non usare alcuna medicina più recente della stregoneria, perché anche per dimostrare che una medicina è meglio di un’altra si usano sistemi simili (che statisticamente, funzionano ;-).

  2. Pensavo stamattina che mi piacerebbe sapere quanti morti ci sono in Italia, in un giorno a caso, per incidenti stradali.
    e quanti vittime del fumo passivo.

    Avrei potuto metterlo dove si parla del fumo oppure qui dove si parla di statistiche.

  3. Sull’argomento ho inviato la seguente mail a Christian Rocca che aveva pesantemente ed assurdamente criticato lo studio sul suo blog:

    “…. un sondaggio è cosa ben diversa da un’indagine campionaria, come andrebbe correttamente definito lo studio. Tradurre “poll” con sondaggio in italiano induce nel lettore l’impressione che qualcuno abbia chiesto “Secondo lei quanti morti ci sono stati in Iraq?”. Invece nello studio la tecnica applicata non è stata esattamente questa. Inoltre Lancet per quanto riguarda gli studi epidemiologici è la rivista scientifica più autorevole al mondo non è solita pubblicare “stronzate” ed in ogni caso esse sono sempre vagliate da “reviewer” indipendenti (come avviene in ogni rivista scientifica). L’Economist invece è un giornale di opinioni. Se vogliamo ricondurre tutto ad una questione di autorevolezza delle due riviste mi spiace ma non c’è partita. Senza contare poi che l’autorevolezza dell’Economist va e viene a seconda della convenienza dei commentatori…
    L’articolo dell’Economist ha comunque il pregio di ricondurre i risultati dello studio nel giusto quadro evidenziandone come è corretto i suoi limiti. A me non sembra affatto che lo smonti anzi si augura che lo studio sia ripetuto su scala più larga. Se fosse stata una “stronzata” non crede avrebbero concluso in maniera differente? Posso ipotizzare che il suo commento sia stato un po’ troppo fazioso o un po’ troppo affrettato?”

    Ecco la sua elusiva risposta: “Dire che ci sono stati cenotmilamorti in iraq, come ormai tutti ripetono – come severgnini- come se fosse un dato certo, assoluto, è una stupidaggine. Quindi non credo di aver affrettato il giudizio.”

  4. I sondaggi dicevano che avrebbe vinto Kerry :-)
    Seriamente: il sondaggio, pardon lo studio statistico, è corretto; ho dei dubbi sul fatto che si possa usare una gaussiana, e che il valore più probabile sia sull’ordine di 50000 morti in più; ritengo che una fascia al 95% così ampia (più di un ordine di grandezza) sia banalmente indice di dificoltà nello stabilire un campione rappresentativo; che comunque lo si dica è stata una carneficina.

  5. Fabrizio und Delio scrivono:

    “Ma, lo ripetiamo, di tutto il processo che porta alla pubblicazione, l’UNICO
    (UNICO, UNICO, per chi sta leggendo velocemente ripetiamo U-N-I-C-O) aspetto
    passibile di critiche dal punto di vista scientifico è la scelta iniziale del
    campione.”

    Ragazzi, ma in casi come questo la scelta del campione è anche l’UNICO e vero
    aspetto determinante della faccenda…
    Perchè se il campione è scelto male, tutto il resto crolla miseramente.
    E, ad oggi, nessuno può sostenere che il campione sia stato scelto correttamente: per un mare di motivi che cercherò di spiegare, dando fondo ai
    miei blandi ricordi di statistica.

    Innanzitutto, fare un confronto con i sondaggi elettorali è scorretto e fuorviante.
    Perchè oramai questo è un fenomeno studiato e conosciuto.
    Quando si decide di effettuare un sondaggio elettorale (o qualsiasi ricerca a campione) si sceglie un campione che si sa già che possa essere rappresentativo dell’insieme che si vuol studiare.
    Se ad esempio, grazie a precedenti studi, si sa che la categoria degli impiegati è quella che approssima meglio le tendenze politiche di un insieme che si vuole analizzare, allora il campione che si sceglierà per effettuare il
    sondaggio sarà preso all’interno di quella popolazione.
    Questo esempio mostra già perchè una metodologia simile sia poco applicabile alla situazione irachena.
    Semplicemente perchè non esistono precedenti in merito.
    Non è possibile oggi stabilire con certezza che un dato campione possa essere statisticamente rappresentativo dell’intera popolazione irachena, o degli effetti che la guerra ha provocato.
    Anzi, svariati dati presentati in questa ricerca sono in netta antitesi con le poche ricerche che si erano condotte in Iraq prima dell’invasione.
    Parlo soprattutto della mortalità infantile.

    Il secondo motivo di critica è sulla variabile casuale che sembra essere stata adottata per spiegare il fenomeno.
    La Normale (o Gaussiana) è una variabile che viene normalmente utilizzata per descrivere gli errori accidentali di un certo fenomeno.
    Errori che appunto si distribuiscono normalmente attorno ad una data media di un campione estratto o di un fenomeno studiato.

    Ora, non credo si possa dire che gli effetti di una guerra possano ditribuirsi normalmente all’interno di un paese: e tantomeno si ditribuiscono in maniera casuale.
    Ci sono luoghi in Iraq nei quali gli effetti della guerra non si saranno nemmeno percepiti ed altri che invece ne hanno pagato una pesantissima conseguenza.
    E’ evidente quindi che un errore anche piccolo nella scelta del campione può portare ad errori enormi nelle proiezioni su scala nazionale del fenomeno studiato.
    Prendete il dato sulle morti violente in Iraq nei dodici mesi anteriori
    l’invsione: su 9.000 interviste si è rilevato solo un caso di morte violenta.
    E’ evidente che un simile dato non possa essere statisticamente significativo ma, soprattutto, che non ci si possa costruire sopra una proiezione su scala nazionale.

    Tra l’altro, leggendo la ricerca, mi sembra che non sia stato dato il valore della varianza.
    Ora, la Gaussiana è funzione di due parametri: la media (100.000 morti) e la varianza.
    Che non venga specificato il valore della varianza mi sembra assurdo, visto che è il dato che indica con quale intensità gli errori accidentali si dispongono nei pressi della media.
    Più la varianza è elevata e meno l’indice di locazione considerato, la media, è rappresentativo della distribuzione.
    Posso immaginare, visto l’incredibile intervallo assunto dalla ricerca, che tale dato sia così alto da trasformare quella che normalmente è una curva in qualcosa di più simile ad una retta…

    Vorrei aggiungere poi che la raccolta dei dati, più di 9.000 interviste, sono state effettuate in Iraq in meno di tre settimane.
    E che dal termine della raccolta dei dati alla pubblicazione della ricerca su Lancet è passato poco più di un mese.

    A mio modesto parere credo che, a questo punto, due siano le domande da farsi:

    1) Il quadro che emerge è statisticamente rappresentativo delle conseguenze
    che la guerra ha avuto in Iraq?
    Secondo me, no.

    2) Questo studio può essere d’aiuto per futuri studi?
    La mia risposta è: si

    E’ una ricerca che senza ombra di dubbio verrà utile per il futuro, ma alla quale non si può dare quella attendibilità statistica a cui noi oggi siamo abituati.
    Perchè appunto non si può assolutamente dire se il campione scelto sia affidabile.

    Spero di non aver scritto un mucchio di cazzate….

  6. Nel 1998 Lancet pubblicò uno studio internazionale sulle discariche: in sintesi si diceva che chi risiede a meno di tre chilometri da un deposito di sostanze tossiche aveva più probabilità di avere un figlio malformato e/o di incorrere in tumori.
    Nel mio paese c’era una discarica tossica e nociva, mandammo lo studio del lancet al sindaco Ds, ora deputato,
    alla responsabile della Asl,a cani e porci, ma ci fu detto che lo studio non era “scientifico”,
    anzi era “allarmistico”.
    In parte era vero, gli stessi autori dichiaravano
    che mancando data-base storiche su cui attingere in maniera rigorosa,
    il tutto si era svolto con interviste, e, dunque, “la precisione” era limitata.
    Ciò non toglie che io ci volevo credere a quelli di “Lancet”, il mio sentire era che prima la chiudevano e si stoppasse quel viavai di nichel, cadmio e mercurio, meglio si stava in paese.
    Lancet proseguì sull’argomento con un altra pubblicazione nel 2002:
    http://www.dica33.it/argomenti/salute_ambiente/rifiuti.asp
    Ora leggo che analogo studio è stato riprodotto per la Campania con analoghe conclusioni
    http://www.ilcannocchiale.it/blogs/style/gemelli/dettaglio.asp?id_blog=4317
    http://www.repubblica.it/2004/h/sezioni/cronaca/acerra/lancet/lancet.html
    E anche stavolta organi accademici pongono in discussione la “scientificità” di queste ricerche.
    Ma perché’sto cacchio di lancet non si sbatte di più e diventa irrefutabile e incontestabile?
    L’ha detto il lancet, punto e basta, caro il mio onorevole.

  7. Caro figlio d’apollo! Anzitutto accetto le tue critiche, perche’ appunto si fondano sull’unico elemento criticabile, la scelta del campione.
    Il confronto con i sondaggi era stato messo nel post per far capire che si tratta di campionamenti. la tua critica che i sondaggi sono una cosa statisticamente conosciuta, per cui si fanno delle correzioni dopo le analisi, e’ sostanzialmente corretta solo per il fatto appunto delle correzioni post-analisi. Siccome si hanno decenni di sondaggi (e di risultati elettorali) nel momento in cui ad es. il campione di Modena sforna F.I. al 95% ci si fa venire dei dubbi. Siccome non si hanno decine di guerre su cui fare queste correzioni (frase del caxxo, lo so), i dati statistici rimangono non post-corretti.
    Pero’ sai benissimo che il metodo statistico e’ lo stesso.
    Per la critica sulla Gaussiana hai toppato. La gaussiana non esprime la distribuzione degli effetti della guerra. La gaussiana esprime l’andamento dell’esperimento. Dice cioe’, supponendo di fare tante volte quel tipo di sondaggio, come si distribuirebbero i risultati. E questi sono gaussiani; l’altra possibilita’ sarebbe una bi-normale o una poisson. Ma non sono fenomeni di questo tipo.
    Per la varianza abbiamo messo il link al post di Marco. Lui ha scritto un bel po’ di numeri.
    Infine mi dispiace criticare anche il tuo punto 1. La tua frase sulla rappresentanza statistica non e’ affatto corretta. Il quadro che emerge (95% tra 8mila e 194mila) e’ esattamente STATISTICAMENTE rappresentativo. Al 95%. Da manuale.

  8. Cavoli! Finalmente qualcuno che dice qualcosa di sensato sulla statistica matematica! Io sto impazzendo a studiarla all’università….. Mi chiedo solo se i giornalisti sappiano da dove vengono i dati delle loro edizioni straordinarie.

  9. ho letto velocemente il pdf del lancet. e anche qualche articolo sull’argomento. senza entrare troppo nello specifico mi sorgono alcuni dubbi: come mai la peer review è durata solo un paio di settimane? ovvero a parte le possibili velleità politiche, ci sono motivazioni precise per una tale rapidità, visto che in genere ,almeno nel mio campo, le revisioni richiedono mesi, almeno 6?

    Come mai il CI usato è .95? L’entità dell’imprecisione espressa dall’intervallo di confidenza è fortemente inflenzata dalla radice quadrata della dimensione del campione: un campione di dati piccolo fornirà meno informazioni rispetto ad uno grande. In questo caso un CI .99 non sarebbe stato più corretto?

    Come mai gli autori suppongo più volte che la stima possa essere per difetto, ma mai per eccesso?

    Ultimo argomento mi piacerebbe capire come sono state ingaggiate le 33 famiglie per cluster. le strutture matriarcali e matrilineari mediorientali sono assai diverse dalla struttura familiare occidentale. In molte culture medio orientali, non so però se è il caso anche dell’iraq, non sempre vi sono distinzioni descrittive tra parenti come nella nostra società ma solo classificatorie ovvero senza divisioni tra parenti lineari e collaterali. questo potrebbe aver portato a sovrapposizioni tra i dati rilevati

  10. Andre’, per la revisione non so che dirti. Tipicamente le revisioni durano di piu’, hai ragione. Dubito che ci siano motivi politici. Se e’ cosi’, un bel po’ di persone si stanno rovinando la carriera da soli.
    L’intervallo di conf. e’ al 95% per il fatto che e’ una ricerca a cluster.
    Sul discorso eccesso-difetto ho solo una possibile spiegazione: perche’ hanno eliminato i picchi massimi, e non i minimi.
    Per le sovrapposizioni penso che parli da se il fatto che hanno verificato i dati con i certificati di morte, esatti all’87% dei casi. Se ci fosse stata una sovrapposizione statisticamente rilevante sarebbe uscita fuori.

  11. ‘brizio :-)
    non sapevo che le indagini a cluster obblighino ad un CI .95 non ne vedo il motivo. credo tu possa convenire con me che il valore assoluto del campione del lancet è piccolo e che un .99 con dati migliori sarebbe più adatto, a mio miserissimo avviso. certo questo porterebbe a valori ancora meno “usabili” in questo specifico caso.
    Per quanto riguarda i cetificati di morte: non ricordo dati precisimi ma mi sembra che abbiano utilizzati i certificati dove possibile e in uno stato in guerra dubito che si possano avere cosi facilmente certificati di morte, quando molto spesso mancano anche i certificati di nascita. cmq se non consideriamo falluja le morti violente totali mi sembra fossero 21 quindi possibilità di reali sovrapposizione mi sembrano remote. il mio era solo un interesse metodologico :-)

  12. Penso che il fatto che sia a cluster induca i ricercatori a maggiori cautele, per cui il .95. In generale, come detto nel post, accettiamo ben volentieri tutte le critiche sulla scelta del campione.

  13. primo mi scuso per i refusi odiossisimi che ho lasciato nell’ultimo commento. secondo: uno dei dati su cui premono quelli del lancet è che la mortalità infantile sia raddoppiata dopo la guerra. lancet indica un passaggio da 29 casi per mille a 57 per mille. bhe. l’unicef ha dati completamente diversi per gli anni passati 1960 1990 e 2002 http://www.unicef.org/infobycountry/iraq_statistics.html#10. questo mi fa ricordare Mark Twain: «Esistono tre tipi di bugie: le bugie, le fottute bugie e le statistiche!»

  14. andrea, la scelta del .95 può avere secondo me due spiegazioni:
    1) con la varianza dell’esperimento in questione la curva non è particolarmente ripida, e con .99 si sarebbe arrivati davvero vicini allo 0, e quindi
    2) con .99 si sarebbero ottenuti risultati che, per altre vie (irakbodycount per esempio, che non fa statistiche ma rilevazioni “sul campo”, per quanto possibile) si sapeva già essere sottostimati, quindi falsi.
    per quanto riguarda la questione del referaggio breve: sono un matematico e non conosco gli standard delle riviste mediche. però, ti posso dire che ci sono grosse differenze tra i vari ambiti scientifici: nei commenti a questo post (http://www.montag.it/blog/archive/002061.html) si era sviluppato un thread interessante che mi aveva fatto scoprire che se i matematici sono i piú sfigati (io raramente ricevo indietro un articolo prima di un anno) in altre branche scientifiche la norma è di pochi mesi, o addirittura settimane.

  15. Delio, scusa ma per quanto riguarda il CI non ho capito cosa tu possa intendere con l’avvicinarsi allo zero.
    per la peer review: comprendo che il tempo di analisi di un paper possa variare. tuttavia possiamo ipotizzare che riviste con fattore di impatto elevato (come lancet) indirettamente portino i revisori a meditare di più e quindi magari a metterci più tempo. un paio di settimane mi sembrano un po’ pochine per un articolo “rischioso”. io sono un sociologo e quindi anche per me il mondo medico è alquanto sconosciuto tuttavia mi sembra di ricordare che proprio lancet abbia tempi abbastanza lunghi (almeno 6 mesi)tanto da esserci vari articoli sulla lentezza intrinseca della peer review e dal tentativo ubiquo di accellerare questo sistema con sistemi online di pubblicazione. Senza parlare della correlazione diretta tra importanza della rivista e importanza\reputazione dei revisori. più il revisore è importante meno avrà tempo da dedicare alle revisione immagino.
    se rileggete la chiusura dell’articolo su lancet si evince quanto l’obietivo dell’articolo sia la sensibilizzazione politica. questo potrebbe far pensare che anche la revisione veloce sia stata dettata più da un pensiero politico che squisitamente scientifico.

  16. Andre’, la questione e’ che con un esperimento a cluster devi mettere in conto una maggiore possibilita’ di varianza dell’esperimento.
    PS: per la storia della peer review e dell’importanza politica dell’articolo ti volevo segnalare che il Lancet si e’ comportato perfettamente. Insieme all’articolo c’era infatti un commento, cosa non inusuale, dove si cautelavano da interpretazioni errate. E, cosa molto simpatica, la maggior parte degli articoli e delle critiche si riferiva agli argomenti del commento.
    Insomma, nessuno si era letto l’articolo. La maggior parte si erano letti solo il commento. E i blogger hanno criticato gli articoli basati sul commento. Come detto all’inizio del post, in pochi lo avevano letto.
    Ti rimando al commento:
    http://www.thelancet.com/journal/vol364/iss9448/full/llan.364.9448.analysis_and_interpretation.31299.1

  17. andrea, ti rispondo. sulla storia del 99% intendevo dire che, con un ci cosi’ ampio, il limite inferiore credo sarebbe capitato dalle parti dei 2-3000 morti, che e’ un numero (si sa gia’ da altre fonti) inferiore ai morti reali.
    per quanto riguarda il referaggio. guarda, quando tocca a me referare un articolo, io non ci metto niente. massimo un paio di giorni. il problema e’ che solitamente prima di farlo rimando e rimando per settimane, per pigrizia. quindi non credo che un articolo “pesante” meriti un referaggio piu’ lungo: piu’ ponderato, forse, ma non piu’ lungo. ergo, l’unico intervento “dall’alto” che mi posso immaginare e’ che l’editor del lancet che ha passato l’articolo al referee gli abbia fatto una testa cosi’ sulla necessita’ di referarlo in fretta. come diceva fabrizio, mi sembra arduo immaginare che abbia addirittura forzato la pubblicazione: ne andrebbe della sua credibilita’ futura.

  18. Le vicende della vita mi hanno portato a studiare statistica per il marketing, percui non posso intervenire sulle disquisizioni più tecniche sui ci o sulle scelte di clusterizzazione.

    Ma in università studiavo più volentieri demografia che econometrica (era evidentemente più facile ed aveva professori mediamente più simpatici e meno spocchiosi), e se mi permettete di tirare in ballo tali ricordi, vi pongo due questioni.

    La prima è di natura metodologica. La criticabilità non è solo nella scelta del campione, ma anche nella rilevazione / intervista. “Certificato di morte” fa sorridere in un paese dove la popolazione non urbana non dispone di alcun archivio anagrafico. sappiate che in molti paesi africani (e anche mediorientali) alcune piramidi per età (ad esempio, nomadi, minoranze berbere, ecc.) hanno il noto effetto “cinque anni”, nel sendo che le persone intervistate non sanno esattamente la loro età e rispondono “ho circa 20 anni” e dopo qualche anno “ho circa 25 anni”. In tali condizioni, il verbo “Rilevare” va usato in modo non confrontabile con gli standard occidentali. In assenza di veri sistemi anagrafici che seguano le coorti (vere certificazioni sull’insieme della popolazione), i basilari problemi di rilevazione (es. il conto doppio) sono all’ordine del giorno.

    La seconda è di natura storica. E’ un fenomeno noto (i sociologi che commentano in questo blog potranno confermare o smentire) che al termine delle guerre vi sia un’impennata di omicidi. Regolamenti di conti, vendette e precarietà dell’assetto sociale ne sono le basi. Non ci si può quindi aspettare che al termine di una guerra ci sia un inaspettato clima di pace sociale.

    Saluti.

  19. ok abbandoniamo il discorso review abbastanza triviale e che non porta a nulla. io volevo solo far notare un forte distaccamento dalla moda(not fashion) di questo caso particolare.
    tuttavia rimango dell’idea che il paper del lancet abbia vari punti se non errati sicuramente dubbiosi -vedi caso mortalita’ infantile- e dato che non tutte le info necessarie risiedono nel background di ricertaori medici, mi sarei aspettato tempi di review piu’ lunghi magari con qualche richiesta di analisi fuori dal solo campo medico- etnografi antropolgi demografi-. Cmq non e’ l’interesse principale della discussione e quindi direi che possiamo abbandonarlo.
    Fabrizio in qualche commento fa parlava della difficolta’ di rapportare il dato dei morti in iraq con altri avvenimenti analoghi. io non ho trovato fonti sufficientemente attendibili per il momento ma magari dati sul vietnam o sulla WWII si trovano e magari si riesce a valutare meglio se il metodo di analisi e’ efficace, se i risultati possono essere accettabili ecc.
    vorrei precisare che non voglio smontare o criticare apriori il lavoro effettuato, anzi mi sembra un buon punto di partenza, sicuramente migliorabile. Tuttavia il reale risultato di questo articolo e’ poca cosa: ci dice che i 15000 morti dell’iraqbodycount sono sottostimati, e… e poi. Quali sono i punti interessanti della ricerca secondo voi?

  20. dnute ok per le coorti, l’effetto cinque anni, come lo chiami tu puo’ aver influito sulla stratificazione del campione ma poco sul numero di decessi raccolto sul campo e sulla successiva proiezione.
    la tua ultima affermazione e’ vera tuttavia non toglie che, se pur ci si debba\possa aspettare un fenomeno del genere, sia interessante valutare numericamente il valore di questo aumento di morti violete e magari compararlo con altre situazioni simili.

  21. >Tuttavia il reale risultato di questo articolo e’
    >poca cosa: ci dice che i 15000 morti
    >dell’iraqbodycount sono sottostimati, e… e poi.
    >Quali sono i punti interessanti della ricerca >secondo voi?
    scusa, ma devo autocitarmi:
    “le morti (tutte, non solo quelle violente o legate direttamente ad azioni militari ma anche quelle legate alle scarse condizioni di sicurezza del territorio, leggi: incidenti e rapine; o quelle dovute alle peggiorate condizioni del sistema medico)”. ricapitolando: irakbodycount aggrega i dati forniti dai giornalisti, che hanno comunque scarsa liberta’ di movimento, e che riportano solo morti avvenute nell’immediatezza di attacchi alleati; mentre l’articolo del lancet cerca di stimare tutte le morti: quelle di combattenti iracheni, quelle di bambini morti per scarsita’ di cure, quelle dovute al caos bellico… sono dati che normalmente si contano poco. questo, pur con tutti gli altri suoi limiti, e’ imho il punto d’interesse della ricerca.

  22. e non dimentichiamo un particolare, quando si tratta di sondaggi: siamo davvero SICURI di non aver contato 2 volte lo stesso soggetto ???

  23. Andre, intendevo il fatto che in assenza di “certificazioni”, per avere un conteggio esatto (campionario, ovviamente) si possono solo contare i cadaveri, perché interviste tipo: “quanta gente è morta qui” non portano lontano. Il nocciolo, a mio avviso, non è solo nella scelta di un campione, ma anche nel “conteggio”. Non perché una scelta metodologica sia migliore dell’altra, ma semplicemente perché ogni tipo di conteggio, nella circostanza, è già intriso di un vizio fondamentale irrinunciabile, una sorta di peccato originale. Applicare tecniche inferenziali su dati sporchi porta a mere indicazioni, ma non a stime o indici (numeri privi del requisito di confrontabilità).
    Per il resto avete grossomodo ragione, sulla teoria inferenziale pura nulla da dire. Ma ottenere e studiare dati di questo tipo è un esercizio difficile, dove spesso i metodi quantitativi devono semplicemente ammettere che certi risultati non sono raggiungibili.
    Saluti.

  24. Delio:
    Con un intervallo di confidenza del 99% la coda di sinistra sarebbe finita in negativo.
    Considerando infatti i seguenti dati:

    Campione: 33

    Media: 101.000 (Lancet indica una media di 98.000, ma il valore centrale dell’intervallo [8.000194.000] è 101.000. Mi viene da pensare che la curva possa essere pure asimmetrica.

    Scarto quadratico medio: 272.546

    Varianza: è il quadrato dello SQM…

    Dicevo, calcolano IC al 99%, l’intervallo diventa [-21.180 223.180]

    Come scrivevo ieri, con una simile varianza il valore della media è scarsamente rappresentativo della distribuzione.
    Ho provato a calcolare l’intervallo di confidenza allo 0,80% e il risultato è [100.526 101.474].

    E’ quindi una curva piattissima.

    Fabrizio:

    La mancanza di dati storici non la vedo solo come un problema di correzione post analisi.
    Le correzzioni tu le puoi applicare solo se puoi essere certo che il campione che hai estratto è già di per se significativo, o che possa essere messo in corrispondenza con la realtà che stai studiando.
    Se effettui un sondaggio a campione devi essere certo che “quel” campione sia rappresentativo della realtà che vuoi studiare.
    Se non sei certo che “quel” campione sia quello esatto, non puoi nemmeno essere certo che i risultati che il sondaggio sforna possano essere rappresentativi della realtà.
    Correzioni o non correzioni.
    Su questo non ci piove.
    Se tu fai un sondaggio politico in Toscana non puoi proiettarlo poi a livello nazionale, perchè ne verrebbe fuori una realtà distorta.
    Similmente, i 33 campioni scelti in Irak possono tranquillamente non essere rappresentativi della realtà irakena.

    Ho letto poi l’intervento di Dnute e l’ho trovato assai interessante.
    Non dimentichiamoci infatti che lo studio di Lancet (in realtà di una università americana) tende a dimostrare l’aumento delle vittime che la guerra ha provocato rispetto alla situazione di partenza.
    Il dato finale è quindi conseguenza del numero delle vittime nell’Iraq di Saddam Hussein.
    La domanda che mi sorge spontanea è questa: quante sono le vittime di Hussein per i quali è stato compilato un regolare certificato di morte?
    Quante quelle fatte sparire senza troppi complimenti.
    Ieri evidenziavo il dato sulle morti violente conteggiate nel pre-invasione: 1.
    E’ un dato che poi si ripercuote ovviamente su tutto il resto della ricerca.

    Sono sicuramente considerazioni odiose, ma tanto è.
    Il mio giudizio, che vale meno del 2 di picche, rimane lo stesso: è una ricerca interessante che potrà venire utile nel futuro.
    Ma poi è meglio fermarsi li.

  25. Scusate, non mi ha preso bene i due intervalli.
    Sono questi:

    IC 99% [-21.180 223.180]

    IC 0,80% [100.526 101.474]

  26. Per quello che riguarda l’articolo sulla guerra irachena, concordo con chi vede nella scelta poco felice del campione la debolezza dell’articolo (che poi porta ad un CI troppo esteso per essere affidabile).
    Ora, non voglio assolutamente mettere in dubbio quanto dice Lancet dato che è sempre stata una rivista scientifica seria, però non dirò una novità se aggiungo che mai come in questi ultimi anni ci si sta accorgendo di quanta statistica sbagliata c’è (e c’è stata) nelle pubblicazioni scientifiche. Andate a vedervi questo articolo di G.Altman, vero guru della biostatistica internazionale, pubblicato sul Journal of American Medical Association:JAMA. 2002 Jun 5;287(21):2765-7
    Reperibile aggggratis al seguente indirizzo http://jama.ama-assn.org/cgi/reprint/287/21/2765.pdf
    Lì si parla di errori grossolani ed imperdonabili commessi nei trial clinici e sono d’accordo che non è il caso dell’argomento trattato dall’articolo di Lancet sull’Iraq, però è tanto per dare un’idea, di stare attenti a quello che ci viene dato e detto come oro colato.
    Uno studio simile a quello di Altman (di cui però non ho sottomano gli estremi) rivela che la rivista Anesthesiology and Analgesics su 243 articoli esaminati riporta addirittura un 85% di articoli con almeno un errore grossolano nelle analisi statistiche! Che porta a conclusioni completamente errate. Adesso, sapendo tutto ciò, non so quanto ci farebbe piacere, distesi sul tavolo operatorio sapere dall’anestesista che ci verrà somministarata una nuova sostanza anestetica in vista dell’intervento, magari frutto delle più recenti ricerche biomediche…
    Saluti a tutti.

  27. OK Ghiro, è un punto su cui si può discutere. Anche se a me lo studio del Lancet appare STATISTICAMENTE corretto. Le cappelle capitano a tutti. Ma stavolta siamo nel 15% di studi corretti.
    @Apelle: io dicevo dei risultati di Modena riferiti a Modena. Non ad una loro proiezione a livello nazionale. Caro fijo d’Apollo, hai ragione che la distribuzione del campione e’ quella che e’. Ma il discorso del rischio e’ anche da non sottovalutare. E, con i dati rivelati, hanno costruito un modello statistico corretto (modello statistico, che, come sai, non c’entra direttamente col fenomeno).
    PS: noi qui non si voleva fare politica, a parte la battutina finale sul paradosso di chi critica il fatto che ad oggi ci sia un sondaggio; se mancano i dati di qualcuno sarà pure colpa…

  28. PS: posso dire una volte per tutte la mia sulla frase di Mark Twain: per me è una cagata pazzesca. La statistica e’ una branc(hi)a della matematica. E’ una scienza complessa, ma esatta. Il problema e’ non produce risultati univoci ma distribuiti. Ma di per loro esatti.
    Il problema e’ che pochi li sanno leggere. Quando su una rivista x appare il risultato di uno studio statistico del tipo: il tal candidato in base ad un sondaggio prenderebbe il 43% con +-3% al 95% io leggo il valore medio di una distribuzione. Cioe’, presupponendno il campione scelto bene e l’esperimento ripetuto all’infinito, i risultati si dispongono con una distribuzione a campana centrata su 43 e con il 95% dei risultati dell’esperimento tra 40 e 46.
    Invece perlopiu’ viene letto solo il 43%.

  29. Fabrì, non ho mai detto che quello studio è una cagata pazzesca, anzi!
    Non mi è mai passato per la testa che sia stato pubblicato per fini politici.
    Ne, nelle mie risposte, ho toccato argomenti politici.
    Dico solo che sono dati da prendere con le pinze.
    Cosa che, purtroppo, i mezzi di informazione non hanno fatto, preferendo sparare la cifra impressionante piuttosto che cercare di spiegare come ci si fosse arrivati.
    Se avessero avuto l’onestà intellettuale di farlo probabilmente intorno a questo studio non ci sarebbero state polemiche.

    saluti.

  30. Fabri’, in mezzo alla selva di cifre mi ero perso il collegamento di citazioni.
    Chiedo venia.

    Ciao.

1 Trackback / Pingback

  1. Darwin

I commenti sono bloccati.