Un grafico fuorviante (in inglesemisleading graph) è un tipo di rappresentazione visiva (anche visualizzazione dell'informazione o diagramma) che, con o senza intenzionalità, induce in errore o offre una visione distorta dei dati che veicola. In statistica, un grafico fuorviante è anche conosciuto come grafico distorto (in inglesedistorted graph) e costituisce un uso sbagliato della statistica.[1]
Il messaggio trasmesso da un grafico è il risultato di una lunga serie di decisioni e interazioni, dalla iniziale raccolta dei dati fino ad arrivare all'insieme di competenze possedute dai lettori. Errori inconsapevoli o scelte intenzionali[2] in qualsiasi punto di questo processo possono creare prodotti fuorvianti. Con riferimento all'intenzionalità, vi sono diverse motivazioni che possono sottendere alla produzione di un grafico fuorviante. Tra queste: la volontà di persuadere o ingannare il pubblico, sostenere un determinato punto di vista, manipolare l'opinione pubblica, condividere disinformazione.
Tali azioni possono influire significativamente sulla decodifica dei dati rappresentati nel grafico, e quindi influenzarne la valutazione ed esplorazione. Allo stesso modo, anche in assenza di intenzionalità, errori inconsapevoli come la scarsa familiarità con i software grafici, l'interpretazione errata dei dati o una conoscenza limitata delle teorie fondamentali della visualizzazione delle informazioni possono avere un effetto simile, ingannando l'osservatore e distorcendo la comprensione dei risultati.[3]
I grafici sono generalmente percepiti come espressioni oggettive della realtà[4] e spesso interpretati come sincero desiderio da parte dell'autore di informare[5], il che contribuisce a rafforzare il potere persuasivo dei grafici fuorvianti.
Letteratura sul tema
(EN)
«Le rappresentazioni grafiche dei dati non sono diverse dalle parole in questo senso, poiché qualsiasi mezzo di comunicazione può essere utilizzato per ingannare.»
(IT)
«A questo proposito, i grafici non sono diversi dalle parole, perché qualsiasi mezzo di comunicazione può essere usato per ingannare.»
(Edward Tufte, The visual display of quantitative information)
Gli autori che hanno dedicato i loro studi all'analisi dei grafici fuorvianti hanno apportato contributi significativi alla promozione di una pensiero critico in questo ambito. Questi contributi provengono da diverse discipline, spaziando design dell'informazione[6], alla cartografia[7], alla statistica[8], alla semiotica[9], e alla interfaccia uomo-macchina[4][10][11]. Tramite ragionamenti, tassonomie ed esempi pratici, le prospettive offerte da questi autori consentono di sviluppare una visione più approfondita e critica nel valutare la correttezza e l'integrità delle rappresentazioni grafiche dei dati.
Nel 1954, Darrell Huff[8] pubblica Come mentire con le statistiche, un volume illustrato che offre uno sguardo sulle tattiche di manipolazione nella statistica. Si tratta di un libro accessibile che spiega concetti statistici in modo comprensibile per i lettori non esperti. Huff mette in evidenza l'importanza di una lettura critica dei numeri e fornisce strumenti pratici per smascherare le manipolazioni statistiche più comuni. Nel non capitolo, propone il termine "statisticolare" inteso come l'azione di disinformare con l'impiego di materiale statistico. Un buon esempio è il "numero pseudoconnesso", una strategia secondo cui se non si riesce a dimostrare direttamente ciò che si desidera, si cerca di dimostrare qualcos'altro e si finge che sia equivalente. In altre parole, si cerca di creare una connessione artificiale tra due concetti o situazioni che potrebbero non essere intrinsecamente collegati.
Qualche anno dopo, nel 1983, Edward Tufte presenta la prima trattazione ampia sul problema della rappresentazione grafica dei dati: The Visual Display of Quantitative Information[12] . Partendo dall'assunto che una rappresentazione grafica di numeri debba essere direttamente proporzionale alla quantità rappresentata, Tufte teorizza il fattore menzogna. Il fattore menzogna misura la violazione di tale principio ed è definito dal rapporto tra la dimensione di un effetto mostrato nel grafico e la dimensione dell’effetto nei dati.
In una situazione ottimale, in cui cioè la rappresentazione grafica non distorce la percezione dei numeri, il rapporto è uguale a 1. Nei casi in cui il rapporto, invece, risulti maggiore di 1, la rappresentazione può essere considerata fuorviante. Dunque, il grado di "inganno" è direttamente proporzionale alla crescita del fattore. In una situazione ottimale, in cui cioè la rappresentazione grafica non distorce la percezione dei numeri, il rapporto è uguale a 1. Nei casi in cui il rapporto, invece, risulti maggiore di 1, la rappresentazione può essere considerata fuorviante. Dunque, il grado di "inganno" è direttamente proporzionale alla crescita del fattore.
Nel campo della cartografia cartografiche, Mark Monmonier[7] affronta il tema delle mappe come rappresentazione semplificata della realtà e tocca anche la questione delle mappe fuorvianti: attraverso esempi concreti mette in luce le tecniche più comuni e invita i lettori a sviluppare una maggiore consapevolezza critica nell'interpretazione delle informazioni cartografiche.
Nel libro Come i grafici mentono[3], Alberto Cairo esplora le strategie impiegate per creare grafici ingannevoli, come il cherry picking dei dati, l'uso di scale inappropriate o la manipolazione degli elementi grafici.
Tipi di grafici fuorvianti
Esistono diversi tipi di grafici fuorvianti, distinguibili in base al tipo di errore e anche al momento in cui avvengono nel processo di visualizzazione. La seguente tabella prende come modello le categorizzazioni teorizzate da McNutt et Al[11], Correll[13], Tufte[12] e Cairo[3] e ne fa una sintesi, citando i casi più comuni di manipolazione intenzionale e non cosciente. Nella tabella è identificato anche il momento in cui la manipolazione avviene nel processo di realizzazione del grafico, seguendo il framework di McNut et Al[11]. Nello specifico, il processo è diviso in quattro fasi:
Curatela - indica l'intero processo di raccolta, misurazione, organizzazione e combinazione dei dati.
Gestione - azioni di pulizia, filtraggio, suddivisione, modellazione per trasformare i dati in una forma utilizzabile dal sistema di visualizzazione.
Visualizzazione - rendere i dati in un modo leggibile per l'uomo.
Lettura - decodifica delle variabili visive di un grafico.
Tipo di manipolazione
Processo
Problema risultante nel grafico
Errori di ortografia
Curatela
Errori di battitura o di ortografia e capitalizzazioni non coerenti possono creare categorie errate.
Selezione intenzionale di dati che supportano una particolare narrazione, ignorando altre informazioni rilevanti.
Record mancanti o ripetuti
Visualizzazione
Errori nell'inserimento dei dati possono risultare in valori mancanti o ripetuti, creando aggregati o raggruppamenti imprecisi.
Aggregazione inadeguata
Gestione
L'aggregazione può trascurare caratteristiche importanti della distribuzione dei dati, mentre la mancanza di aggregazione può rendere il grafico difficoltoso da interpretare.
Valori fuori scala
Gestione
I valori fuori scala possono avere un forte impatto sull'aggregazione e sulla scala del grafico.
Rendere la correlazione uguale alla causalità
Gestione, Visualizzazione
Può creare una falsa impressione di una relazione o connessione tra due variabili non correlate.
Scale non comparabili
Visualizzazione
La manipolazione delle scale può esagerare la dimensione dell'effetto, minimizzarla o interpretare erroneamente la direzione dei dati.
Visualizzazioni non sequenziali
Visualizzazione
La visualizzazione in realtà non si basa su un set di dati.
Scale irregolari e assi tronche
Visualizzazione
Esagera o minimizza le differenze tra valori.
Scale logaritmiche
Visualizzazione
Possono essere di complessa interpretazione per i non esperti e ingannevoli se non menzionate come tali.
Effetto 3D
Visualizzazione
Produce una prospettiva esagerata e difficoltà di percezione delle proporzioni.
Pittogrammi
Visualizzazione
L'uso di un pittogramma come segno grafico può causare incomprensione sul tipo di variabile visiva codificata (esempio: altezza o area).
Colori non discriminanti
Visualizzazione
Le palette di colori non percettivamente discriminabili possono generare ambiguità nel riconoscimento delle variabili visive.
Scala semantica dei colori inadeguata
Visualizzazione
I colori hanno effetti e associazioni semantiche diverse a seconda del contesto culturale di riferimento.
Complessità visuale
Visualizzazione
Le visualizzazioni troppo complesse possono sopraffare o confondere l'osservatore e nascondere tendenze importanti.
Direzioni di scala non convenzionali
Visualizzazione
La violazione delle convenzioni può causare tempi di lettura più lenti o addirittura l'inversione delle tendenze percepite.
La tendenza a dare più peso alle informazioni specifiche dell'evento, ignorando del tutto i tassi di base.
Grafici inaccessibili
Lettura
Il modo in cui i lettori consumano i grafici è eterogeneo e dipende da abilità percettive e background cognitivi.
Effetto predefinito (in inglese default effect)
Lettura
Le impostazioni predefinite possono contribuire in associazioni di variabili non correlate (esempio: palette colori predefinite nei software grafici).
Effetto 3D
La rappresentazione tridimensionale dei dati può risultare allettante, ma presenta diversi problemi che ne rendono l'interpretazione fuorviante[14]. In particolare:
Occlusione. L'occlusione si manifesta quando determinati elementi nel grafico tridimensionale si sovrappongono ad altri, creando ostacoli visivi che impediscono la corretta visualizzazione di tutte le informazioni presenti. Questa sovrapposizione compromette la chiarezza e la completezza della rappresentazione, risultando in una perdita di dettagli significativi.
Proiezione. La proiezione di un oggetto tridimensionale su un piano a due dimensioni può creare gerarchie ingannevoli. Gli elementi che si trovano in primo piano appaiono più grandi, mentre quelli sullo sfondo sembrano più piccoli, alterando la relazione tra le dimensioni.
Ambiguità percettiva. Nonostante l'informazione visualizzata rimanga la stessa, è difficile mantenere una percezione stabile e coerente.
Al fine di prevenire gli effetti precedentemente menzionati, è consigliabile limitare l'utilizzo di grafici tridimensionali a situazioni in cui sia strettamente necessario. Per ovviare a questo tipo di inganno possono essere adottate soluzioni alternative come l'attribuzione di diversi colori o dimensioni alle variabili visive[14].
Asse troncato
Un asse troncato è una tecnica di rappresentazione grafica in cui l'asse di un grafico viene interrotto o abbreviato, generalmente omettendo una porzione significativa dello spazio tra il valore zero e il valore massimo rappresentato. L'asse troncato può essere utilizzato per enfatizzare le differenze relative tra valori più piccoli o per evidenziare le variazioni in una determinata gamma di dati. Questa tecnica può essere efficace nel rendere le differenze più evidenti e facilitare la visualizzazione dei dati in modo più dettagliato all'interno di una gamma specifica. Tuttavia, è importante essere consapevoli del fatto che un asse troncato può distorcere la percezione dei dati rappresentati. Omettendo una porzione significativa dell'asse, si può alterare la scala e rendere le differenze tra i valori molto più evidenti o ingannare l'osservatore. Pertanto, quando si utilizza un asse troncato, è fondamentale fornire un'adeguata indicazione sull'interruzione dell'asse per garantire una corretta interpretazione dei dati presentati[10].
Aggregazione inadeguata
L'aggregazione dei dati è utile per riassumere l'insieme delle informazioni disponibili, ma è importante riconoscere che questa pratica può comportare la perdita di aspetti cruciali dei dati stessi. Ad esempio, l'aggregazione potrebbe sotto-rappresentare alcune informazioni o sovra-rappresentarne altre, generando un'immagine distorta o incompleta della realtà rappresentata.[15]
Infatti, le dimensioni dei dataset sono spesso molto più grandi di quelle che possono essere inserite in un particolare grafico. L'aggregazione è una tecnica comune per ovviare a questo problema. Tuttavia, la scelta della funzione di aggregazione può portare a conclusioni molto diverse rispetto alla distribuzione sottostante dei dati. Inoltre, queste sintesi statistiche possono celare importanti caratteristiche della distribuzione, come le statistiche di secondo ordine. Allo stesso modo, non applicare una funzione di aggregazione può aumentare la complessità visiva del grafico, nascondendo in egual modo modelli presenti nei dati.[11]
Un esempio utile a capire il rischio dell'aggregazione inadeguata è il box plot o diagramma a scatola e baffi, un grafico che riassume le caratteristiche principali di una distribuzione statistica univariata. I box plot possono essere fuorvianti proprio per il modo in cui visualizzano la distribuzione. Se la distribuzione dei dati è fortemente asimmetrica, ad esempio con una coda lunga su un lato, il box plot potrebbe non riuscire a catturare adeguatamente questa caratteristica. Questo può portare a una rappresentazione sbilanciata della distribuzione e a una comprensione distorta delle tendenze o dei modelli presenti nei dati. Inoltre, i box plot forniscono informazioni sui quartili, ma non forniscono dettagli sulla variazione all'interno di ciascun quartile. Se i dati all'interno di un quartile sono fortemente raggruppati o estremamente dispersi, il box plot potrebbe non rivelare questa variabilità interna.[16]
Pittogrammi
I pittogrammi vengono spesso impiegati per rendere i grafici più accattivanti. Il problema intrinseco all'utilizzo dei pittogrammi risiede nella loro natura relativa in termini di dimensioni. Se tali pittogrammi vengono scalati uniformemente, si può creare una distorsione percettiva: per la loro conformazione si tende a interpretare l'area occupata dal pittogramma come variabile di riferimento. Molto spesso però i pittogrammi vengono usati per visualizzare una lunghezza e non l'area. Una possibile soluzione potrebbe essere ottenuta sovrapponendo i pittogrammi anziché ridimensionarne l'area[17].
Colori non discriminanti
Il colore è uno dei modi più comuni ed efficaci per trasmettere informazioni attraverso la visualizzazione dei dati. La percezione umana delle differenze di colore influenza il modo in cui le informazioni vengono consumate. Scelte cromatiche efficaci possono aiutare a evidenziare modelli e tendenze importanti nei dati, mentre scelte cromatiche sbagliate possono oscurare o addirittura travisare i dati. Inoltre, le scelte cromatiche possono influire sull'accessibilità della visualizzazione per le persone con problemi di alterata visione dei colori[18].
I colori non discriminabili, noti anche come colori indistinguibili o colori percettivamente simili, si riferiscono a combinazioni di colori che sono difficili da differenziare o distinguere per l'occhio umano. Questi colori hanno proprietà visive molto simili, come la tonalità, la saturazione e la luminosità, che li rendono difficili da percepire come tonalità distinte. Se utilizzati in grafici, diagrammi o visualizzazioni di dati, i colori non discriminabili possono generare confusione, interpretazioni errate e difficoltà di comprensione o di confronto tra diversi punti o categorie di dati. Per garantire una comunicazione efficace e l'accessibilità, è fondamentale utilizzare tavolozze di colori che includano colori distinguibili, fornendo un contrasto e una chiarezza sufficienti per consentire agli utenti di distinguere tra diversi elementi o categorie[11].
Correlazione e causalità
Nonostante l'aforisma "la correlazione non implica la causalità" sia ampiamente riconosciuto, quando si incontrano linee convergenti, barre ascendenti o punti raggruppati su un diagramma di dispersione, si è spinti a cercare una spiegazione causale. C'è un desiderio di attribuire una ragione a questi schemi[19].
Una correlazione spuria (o relazione spuria) è una relazione matematica in cui due o più eventi o variabili sono associati ma non causalmente correlati, risultando in una fallacia interpretazione[20]. Tyler Vigen ha sviluppato un sito web che presenta una collezione di grafici che mostrano correlazioni spurie e assurde, offrendo una chiara esemplificazione dell'inganno che queste celano[21].
Per la visualizzazione di correlazioni spuri Solitamente, i grafici a linea sono impiegati per la visualizzazione delle correlazioni spurie. Per mettere visualmente in correlazione due eventi o variabili che non lo sono realmente si tende ad attribuire ad ogni evento una scala diversa sull'asse delle ordinate. In questo modo, facendo forza sul principio delle coincidenze casuali, si può supportare erroneamente una specifica narrativa[19].
Complessità visuale
Nel capitolo Charijunk: Vibrations, Grids, and Ducks[12] che pone le basi per il famoso dibattito sul chart junk, Tufte parla di disordine grafico (in inglese graphical clutter) facendo riferimento alla complessità visuale generata dalle decorazioni superflue che aggiungono rumore visivo nel processo di interpretazione del grafico. Tufte sostiene che l'uso di griglie troppo visibili, l'eccesso di decorazioni e di abbellimenti, l'uso di texture al posto delle scale cromatiche, riduca la chiarezza e l'efficacia della trasmissione delle informazioni. Per cui, sottolinea l'importanza della semplicità, della chiarezza e dell'accuratezza nella visualizzazione dei dati. In questo senso, nello stesso libro, introduce il concetto di rapporto dati-inchiostro, che misura la proporzione di inchiostro o di elementi grafici utilizzati per rappresentare i dati rispetto all'inchiostro totale utilizzato nel grafico. Egli raccomanda di massimizzare il rapporto dati-inchiostro eliminando gli elementi grafici non necessari che non contribuiscono alla rappresentazione dei dati. Nel rapporto è incluso l'uso delle codifiche ridondanti e di eccessive etichette, che possono portare a confusione e disordine visivo.
Per gestire meglio il livello di complessità del grafico esistono tool dedicati, un esempio è Greadability.js[22] una libreria JavaScript per calcolare le metriche di leggibilità dei grafi.
Circolazione sui social media
Ci troviamo nella seconda età dell'oro del design dei dati[23], in cui le nuove possibilità digitali promuovono maggiore accessibilità ai software di produzione dei grafici e incoraggiano la creazione di nuovi modelli visivi. Sempre più grafici circolano online, per raccontare lo svolgersi di eventi sociali e per dare un senso alla complessità e all'evoluzione di specifici stati di emergenza. Un esempio lampante in questo senso è stata la pandemia da Covid-19: ha generato una concreta necessità di comprendere e comunicare informazioni vitali su dati, modelli, evoluzioni e sui risultati delle politiche di contenimento[24]. Diverse associazioni e ricercatori hanno collezionato i grafici prodotti durante la pandemia, ne è un esempio l'archivio COVIC[25] un'ampia raccolta multilingue e multiculturale destinata a scopi didattici e di ricerca.
Tuttavia, questo tipo di complessità combinata con una forte eterogeneità degli gli attori coinvolti, può favorire la circolazione di grafici fuorvianti, soprattutto se si considera la creazione e l'utilizzo di grafici da parte di persone non esperte[26]. I grafici sono strumenti retorici[27] che possono veicolare messaggi politici e influenzare l'opinione pubblica[28]. Per questo è molto importante sviluppare un pensiero critico e aumentare la copertura dell'alfabetizzazione visuale (in inglesevisual literacy). A questo proposito, molti articoli disponibili online[29][30][31] e pubblicazioni scientifiche[23][32] trattano il tema dei grafici fuorvianti durante la pandemia.
^abcde Andrew McNutt, Gordon Kindlmann e Michael Correll, Surfacing Visualization Mirages, in Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems, Association for Computing Machinery, 23 aprile 2020, pp. 1–16, DOI:10.1145/3313831.3376420. URL consultato il 6 luglio 2023.
^abc Edward R. Tufte, The visual display of quantitative information, Second edition, tenth printing, April 2018, Graphics Press, 2018, ISBN978-0-9613921-4-7.
^ Towards Data Science
Maarten Grootendorst, Misleading Graphs… and how to fix them!, su towardsdatascience.com, 23 marzo 2021. URL consultato il 7 luglio 2023.