Trucchi grafici poco puliti

Con le statistiche sul COVID-19 che impazzano in giro mi è venuta voglia di recuperare un vecchio articolo che non ho mai finito di scrivere e che raccoglieva tutti quei modi che vengono utilizzati, spesso intenzionalmente, per dare informazioni sbagliate tramite le rappresentazioni grafiche (diagrammi, torte, barre e così via).

Articoli di giornale, siti web, meme e discussioni sui social fanno infatti spesso largo uso di rappresentazioni grafiche, e quindi un minimo di alfabetizzazione in materia (all’incrocio fra statistica e storytelling) è utile per non commettere errori in buona fede o, viceversa, per non farsi infinocchiare.

Facciamo un esempio visto oggi e che riguarda appunto l’attualità dell’epidemia da COVID-19. Se io guardo questo grafico trovato su Twitter (di Nino Cartabellotta)

ottengo l’informazione che i contagi stanno crescendo in maniera esponenziale (in realtà, ho scoperto oggi, le epidemia successivamente seguono l’andamento di una curva logistica, cioè a forma di S, e più avanti vengono descritte da modelli molto più raffinati, ma la cosa in questa fase non è importante perché le differenze sono minime).

L’informazione immediata è quindi che la situazione è preoccupante, anzi molto preoccupante. Se invece esamino quest’altro grafico (da un tweet di Riccardo Puglisi), che descrive le percentuali di incremento da un giorno all’altro

ottengo l’informazione molto più rassicurante che l’incremento percentuale dei contagi (contrapposto ovviamente al numero assoluto di casi totali) è tendenzialmente in calo.

Chi ha ragione? Eh, boh. Intanto bisogna capire quale è più adatta a dire cosa: vogliamo sapere quando il numero dei contagiati potrebbe arrivare a saturare la quantità di risorse disponibili del sistema sanitario? Probabilmente il primo grafico è più adatto. Vogliamo dire che l’epidemia probabilmente si potrebbe esaurire da sola, o che le misure di contenimento stanno funzionando? L’incremento percentuale potrebbe dare un riscontro migliore.

Solo che…

Solo che entrambi soffrono del fatto che sono basati su serie di dati relative a intervalli temporali bassissimi, di pochissimi giorni. Come tali soffrono parecchio di casi eccezionali, ma non allo stesso modo; nel grafico di Puglisi l’impennata del 27 dipende dal fatto che il giorno prima la Lombardia non aveva comunicato i casi e poi ha comunicato quelli relativi a due giorni assieme: se fosse accaduto diversamente quel grafico, probabilmente, non suggerirebbe l’andamento decrescente del fenomeno come sembra fare. Infatti lo stesso Puglisi ha presentato un altro grafico coi dati di altri giorni successivi, dove le cose hanno un aspetto del tutto diverso:

e si racconta una storia molto meno rassicurante, con un incremento che, giorno più giirno meno, sta tendenzialmente attorno al 40%, che non è per niente poco.

E, per continuare a complicare le cose, nel grafico iniziale di Cartabellotta la situazione della Lombardia sembra molto peggiore di quella delle altre regioni, le cui curve hanno un’aria molto più piatta. Questo perché proiettiamo tutte le situazioni sulla stessa scala; ma se togliessimo la Lombardia dal grafico (a destra)

vedremmo che la tendenza a impennarsi, anche se i numeri sono diversi, è comune a tutte.

Ecco, partendo dagli stessi numeri ai grafici si possono far dire cose molto diverse: è una variante della nota battuta che se si torturano i numeri abbastanza a lungo confesseranno qualunque cosa. E notate che qui non c’è un particolare tentativo di raccontare una qualche storia a proprio uso e consumo (forse nel grafico di Puglisi c’è u pochino la voglia di giocare a fare il debunker del panico e dell’allarmismo, ma è un peccato veniale); viceversa ci sono un sacco di situazioni nei quali giornalisti, politici o agitatori da social bareranno graficamente sapendo benissimo di barare.

Ecco, se avete interesse a approfondire e a farvi una cultura sull’argomento, all’epoca avevo raccolto un po’ di siti di documentazione liberamente disponibile: ve li presento qui sotto, con alcune parole di introduzione per ciascuno: c’è di che divertirsi, indignarsi e… studiare.

Alcuni sono in inglese ma mi sembrano comunque di interpretazione piuttosto facile: se comunque avete bisogno di aiuto, fate un fischio.

Iniziare ridendo: false correlazioni

Una correlazione implica che due dati sono uno la causa dell’altro, o comunque che sono collegati in maniera univoca: quantità di birre bevute dai Fabbricastorie e numero di giochi prodotti, per esempio, o numero di monellerie di mia nipote Marta e urla di mia sorella che sento provenire dalla casa a fianco.

Capita che queste relazioni fra variabili siano descritte, soprattutto per serie temporali, con due linee che riportano anno per anno i fenomeni correlati. Il problema è che lavorando in questo modo (e taroccando opportunamente le scale di riferimento delle quantità) si possono trovare con una certa facilità fenomeni completamente indipendenti che però hanno (a prima vista) esattamente lo stesso andamento temporale, come in questo caso che apparentemente dimostra che al calare dei divorzi nel Maine cala anche il consumo pro capite di margarina negli Stati Uniti (o viceversa):

Il sito Spurious correlation presenta un buon numero di grafici altrettanto demenziali, ed è una navigazione istruttiva che vale da ammonimento generale (e potrete usare quei casi paradossali come ottimo argomento polemico quando qualcun altro tenterà di rifilarvi sul serio una falsa correlazione).

Per spiegare meglio

Sul sito della Harvard Business Review c’è un articolo interessante che parte esattamente dal sito Spurious correlation per illustrare tre fallacie normalmente associate alle false correlazioni: comparare pere con mele, stabilire falsi rapporti ci causa-effetto o, come nel caso qui sotto, manipolare gli intervalli delle variabili per suggerire correlazioni che in realtà non ci sono:

Ah, quegli assi!

Visto che siamo in argomento, l’ottimo sito Calling bullshit (che letteralmente sarebbe Identificare le str… ehm, panzane che tentano di rifilarti e, voi non ci crederete, è il sito di un serissimo corso universitario dell’Università di Washington) ha un buon articolo che tratta esattamente dei modi truffaldini di presentare un grafico barando sulle grandezze rappresentate negli assi.

L’articolo ha diversi altri esempi. Notate che qui non stiamo parlando di false correlazioni, quanto di descrizioni manipolate della realtà, come il tentativo di far vedere che i tedeschi sono molto più lavoratori di quasi tutti gli altri europei.

Altri casi classici

L’immagine qui sotto riporta il numero di omicidi commessi in Florida mediante armi da fuoco. La data cruciale evidenziata è quella dell’entrata in vigore di una legge che aumentava i casi nei quali l’aggredito era giustificato nell’uso della forza per difendersi (fondamentalmente, prima se poteva evitare lo scontro – per esempio con la fuga – l’uso della forza era considerato ingiustificato). Dategli un’occhiata dite se, secondo voi, il numero di omicidi dopo l’approvazione della legge è aumentato o diminuito.

Il numero di omicidi si è impennato bruscamente, ma rendersene conto non è facile perché, contrariamente all’ovvio, il grafico ha le quantità maggiori più in basso; inoltre la zona piena, rossa, tende ad attrarre lo sguardo del lettore facendo sembrare la parte bianca secondaria; l’effetto combinato contribuisce a dare l’impressione esattamente contraria di quella che è stata la realtà.

Il grafico è un caso famoso di sviamento ed è citato spessissimo. Con altri dodici casi classici, che sono altrettanti esempi di tentata manipolazione dell’opinione pubblica, lo trovate su Buzzfeed.

In generale

Se si vuole passare dalla casistica a qualcosa di più ragionato, un primo passo è un articolo sul National Geographic offre l’elenco di cinque campanelli d’allarme che dovrebbero avvisarvi che il grafico che state vedendo mente, per esempio se mostra cambiamenti drammatici quando non ce ne sono:

Arrivati a questo punto molti degli esempi proposti vi saranno già familiari, ma è piacevole averli tutti a disposizione in un unico elenco.

In italiano!

Sul sito Scienza in rete c’è un trattamento sistematico degli errori e delle manipolazioni che si possono compiere con le infografiche, un po’ lungo ma ottimo. È anche severissimo, molto più cattivo dell’undestatement anglossassone che abbiamo incontrato sinora. Lascio a voi scoprire quale grande quotidiano italiano sia maggiormente messo alla berlina nell’articolo (indizio: è una bella lotta, ma c’è un chiaro vincitore).

Le aree rappresentate non sono fra loro nella stessa proporzione dei numeri indicati (vedi Sardegna e Sicilia, per esempio). Dice: «Utilizzare aree per rappresentare misure lineari comporta sempre questo rischio, se non si ricordano i minimi rudimenti di geometria».

Dolci gattini statistici

Il curioso sito Stats ith cats (lo tiene un geologo americani appassionato di statistica e, evidentemente, anche di gatti) ha un interessante articolo su come fare per capire se la correlazione che avete trovato (o che vedete espressa su un grafico sul giornale) può davvero rappresentare un rapporto di causa-effetto. Dopo tutte le illustrazioni carine degli altri articoli qui l’aspetto è (molto) più spartanoe l’inglese è più difficile. È però anche l’articolo più importante fra tutti se volete davvero approfondire, e ve lo consiglio.

Il libro di statistica

Ma magari sinora tutto quello che abbiamo detto per voi è arabo e assi, intervalli, istogrammi, serie in pila o grafici temporali sono termini per voi inusitati.

In realtà un capitolo sulle rappresentazioni grafiche si trova più o meno all’inizio di ogni buon testo universitario di statistica. Per esempio vedo su Google che è facilmente consultabile on line quello del professor Tarsitano dell’Università della Calabria: le rappresentazioni grafiche sono al capitolo 4.

Facebook Comments

Lascia un commento

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

%d blogger hanno fatto clic su Mi Piace per questo:

Questo sito usa cookie o permette l'uso di cookie di terze parti per una vasta serie di funzionalità, senza le quali non potrebbe funzionare con altrettanta efficacia. Se prosegui nella navigazione, scorri questa pagina, clicchi sui link presenti nel sito, commenti un contenuto, condividi una pagina o un articolo, scarichi un file, visualizzi un video o utilizzi un'altra funzione presente su questo sito stai probabilmente attivando un cookie e acconsenti quindi implicitamente all'utilizzo di cookie. Per capirne di più o negare il consenso leggi la cookie policy - e le informazioni sulla osservanza della GDPR

Questo sito utilizza i cookie per fornire la migliore esperienza di navigazione possibile. Continuando a utilizzare questo sito senza modificare le impostazioni dei cookie o cliccando su "Accetta" permetti il loro utilizzo.

Chiudi