Fabrizia Mealli è docente di statistica all’Università di Firenze. Dirige il Florence Center for Data Science, centro di ricerca interdisciplinare che sviluppa metodologie e applicazioni innovative nel campo delle scienze dei dati. Fin dall’inizio della pandemia, insieme alla collega Michela Baccini, si è occupata della creazione di modelli statistici per la previsione dell’andamento e la prevenzione del contagio da coronavirus.
Il bollettino del tardo pomeriggio come un rito irrinunciabile: quanti casi totali, l’incremento giornaliero, la percentuale dei tamponi positivi, l’indice Rt e così via. Mai quanto in questi mesi siamo stati costretti a interessarci di numeri, mai la statistica era stata così al centro del discorso pubblico e di quello quotidiano. I numeri bisogna conoscerli. Servono a chi governa per raccomandare o vietare certi comportamenti, ma servono anche a tutti noi per farci un’idea (gli statistici direbbero una stima) di quanto sia alta probabilità di infettarci. Quando la nostra conoscenza è incompleta– praticamente sempre – è la statistica lo strumento migliore a cui affidarsi per prendere decisioni. C’è un problema. “È vero che si parla tanto di numeri, ma non abbastanza di come quei numeri vengono prodotti, e quindi di come si possono poi utilizzare”. Il punto, secondo Fabrizia Mealli, docente di statistica all’Università di Firenze e direttore del Florence Center for Data Science, è che “c’è la percezione di essere inondati di dati. In realtà sono semplicemente tanti, ma la loro qualità è bassissima”.
Perché bassissima?
Durante un evento di questa portata l’acquisizione di informazioni è fondamentale perché permette da una parte di capire a che punto siamo nella dinamica epidemica, dall’altra di prevedere come evolverà. Tutti gli indicatori che abbiamo imparato a conoscere in questi mesi – l’Rt, la prevalenza, la letalità – servono a descrivere l’andamento del contagio, non a prevederlo. E anche in questo, che sarebbe un compito relativamente semplice se i dati venissero rilevati in un certo modo, siamo stati assolutamente carenti.
In che senso?
Prendiamo l’indice di trasmissione Rt, uno dei più importanti tra i 21 indicatori della tabella. Ci dice, semplificando, quante sono le persone che ciascun positivo infetta a sua volta, in media. L’Rt calcolato dall’Istituto superiore di sanità si basa sostanzialmente sui casi sintomatici. Ma il numero dei sintomatici che si trovano dipende dalla politica dei tamponi, che è diversa da regione a regione, a volte addirittura tra Asl. Non solo: è una politica che è cambiata più volte nel tempo anche all’interno della stessa regione. Oppure i focolai. Vengono definiti come almeno due casi che l’indagine epidemiologica collega fra loro. Una famiglia di positivi è considerata un focolaio. Se una regione improvvisamente non fa più tamponi perché è satura la sua capacità di farli, l’indicatore scende a zero. Ma non perché i focolai non ci siano! Una regione può riportare tanti focolai proprio perché è più capace di intercettarli.
È mancato un coordinamento?
Sarebbe servita un’azione centralizzata e un sistema di tracciamento nazionale, che ormai è saltato. Sta succedendo lo stesso con i test rapidi: quando il commissario Arcuri acquista 10 milioni di test, il governo secondo me dovrebbe avere l’autorità di poter dire alle Regioni “ve li distribuisco, ma dovete rispettare un piano di screening e di sorveglianza, dicendomi come li utilizzate”. Invece ci si affida all’iniziativa dei sindaci. Abbiamo dati che vengono raccolti quasi a mano, ovunque in modo diverso e su fogli di calcolo che non si parlano. Un sistema di tracciamento non è importante soltanto per isolare gli infetti e contenere la diffusione del virus, ma è fondamentale per capire dove avviene il contagio.
Che avrebbe consentito chiusure mirate invece che orizzontali?
Se ora mi chiede se si è fatto bene a chiudere le scuole, io dico di sì. Perché se guardiamo quando sono ripartiti i contagi, è tra la fine di settembre e l’inizio di ottobre. E non do la colpa alle scuole in sé, ho la sensazione che il contagio non avvenga in classe. Io mi sono sentita sicurissima quando ho fatto lezione in aula. Ma senza raccogliere informazioni su quello che avviene prima e dopo la scuola – gli spostamenti, i mezzi pubblici, i luoghi di incontro – l’unica soluzione che resta sono le misure restrittive uguali per tutti, a prescindere dalle caratteristiche di un territorio. Tuttora si parla solo di tenere la curva sotto controllo, sperando di riaprire a Natale. Succederà che allenteremo le maglie senza avere portato i contagi a zero, con il virus ancora circolante. Per il rientro a scuola a gennaio serve un piano. Nessuno ne parla, nemmeno stavolta, nessuno che colga l’occasione per resettare la macchina e mettere su un sistema di screening e sorveglianza attiva adeguato, magari omogeneo in tutto il territorio nazionale. Non abbiamo imparato nulla.
Voi del Data Science, insieme alla collega Michela Baccini, un metodo lo avevate proposto: che cos’è il pool testing?
Non è un’idea nuova, è una tecnica inventata per diagnosticare la sifilide tra i soldati americani intorno agli anni ’40. Anche allora si doveva analizzare una gran quantità di campioni. Più che lo stick per il prelievo o il reagente, quello che costa è il tempo che serve per analizzare un tampone. Allora l’idea è questa: facciamo il tampone a – supponiamo – 100 persone. Invece che analizzarlo con 100 test individuali, quindi 100 reagenti e 100 unità di tempo per l’analisi, dividiamo il materiale biologico in 10 gruppi e lo analizziamo come se provenisse da un individuo solo. Se il risultato è negativo vuol dire che in quel gruppo c’erano solo persone negative. Se viene positivo dovremo analizzare il materiale, che in parte abbiamo conservato, solo dei 10 tamponi di quel gruppo. Per trovare un positivo fra 100 persone in questo modo abbiamo utilizzato 20 test invece di 100.
Detta così sembra una soluzione magica. Funziona sempre o ci sono condizioni da rispettare?
Il compito di noi statistici è proprio capire in quali situazioni è vantaggioso o svantaggioso. Abbiamo fatto molte simulazioni per capire quanto il test potesse reggere la diluizione, quanto numerosi dovevano essere i gruppi senza perdere in capacità diagnostica. Questa estate, quando il virus circolava prevalentemente tra i giovani, i tamponi erano caratterizzati da una bassa carica virale. In quel caso abbiamo visto che per mantenere la sensibilità del test si dovevano fare gruppi di 4-6 persone, in via cautelativa. Oggi, con una carica virale alta, possiamo spingerci anche a gruppi di 20 persone. Solo che il pool testing ha senso quando la prevalenza, cioè la quantità di infetti nella popolazione, è relativamente bassa. Oggi rischiamo che in ogni gruppo ci sia un infetto e quindi non si risparmia più. Si possono comunque trovare situazioni in cui è utile: penso alle Rsa, che sono comunità chiuse. Oppure proprio per il rientro dei ragazzi a scuola.
Le istituzioni come hanno risposto?
Abbiamo proposto il progetto alla Regione Toscana fin da aprile, quando ancora non si trovava niente sul pool testing per il Covid-19 in letteratura medica. L’interesse c’è, ma durante l’estate, nel momento in cui dovevamo mettere su un piano con progetti pilota da implementare, si sono accumulati i ritardi, il gruppo di lavoro è stato costituito solo alla fine di agosto. A quel punto abbiamo subito scritto un rapporto con piani di sorveglianza e progetti pilota, ma solo per recepirlo ci sono volute altre due settimane. E intanto eravamo di nuovo nel mezzo dell’emergenza. Da allora siamo stati ricontattati a metà novembre. Non manca interesse o volontà, è questione di tempi e di programmazione. E ora non è più la priorità. Ma, in effetti, è anche questa la priorità. Se a gennaio riapriamo tutto con le mascherine e poche altre misure, il contagio ripartirà: perché non dovrebbe, cos’è cambiato?
In un suo recente articolo pubblicato da The Guardian, il fisico Carlo Rovelli parla dell’analfabetismo statistico come di un problema “fatale”, e dice: “la società otterrebbe vantaggi significativi se ai bambini venissero insegnate le idee fondamentali della teoria della probabilità e della statistica”. Quali potrebbero essere?
La cultura statistica serve ad avere coscienza dell’informazione che viene trasmessa. Serve a capire cosa distingue una correlazione da un nesso di causa-effetto. È una distinzione fondamentale, distinguere tra le due cose permette di prendere decisioni adeguate ed efficaci, oltre a dare una valutazione critica delle decisioni prese da altri. Promuovere l’alfabetismo statistico potrebbe anche rendere le persone più propense a fornire l’informazione. Troppi sono ancora reticenti a rispondere a indagini statistiche fatte con tutti i crismi, approvate da comitati etici e con la massima tutela dei dati personali. Poi magari si racconta di tutto sui social network. Eppure raccogliere dati di qualità è essenziale per prendere le decisioni giuste e misurarne l’impatto. E quindi anche per il contenimento di un’epidemia.