«IA, così i bias presenti nei dati possono influenzare gli esseri umani»

Intervista a Donata Columbro, giornalista, femminista dei dati e autrice di "Quando i dati discriminano" (Il Margine 2024)

Donata Columbro

L’intelligenza artificiale per funzionare ha bisogno di dati: tanti, tantissimi dati. E nei dati, nel modo in cui questi vengono raccolti, organizzati ed etichettati, si possono annidare bias, pregiudizi, errori di interpretazione. Con il rischio concreto che si generino casi di gravi discriminazioni, perpetuando le disuguaglianze o addirittura accentuandole.

Abbiamo fatto una chiacchierata su un tema molto complesso e con implicazioni importanti con Donata Columbro, giornalista, femminista dei dati e autrice della newsletter settimanale tispiegoildato.it. Columbro è anche autrice di una serie di testi sui dati e sull’uso che se ne fa e il suo ultimo lavoro è “Quando i dati discriminano” (Il Margine 2024).

In che modo i dati sono fondamentali per lo sviluppo e il miglioramento dei modelli di intelligenza artificiale?

Quando parliamo di intelligenza artificiale, stiamo usando un termine molto ampio per identificare il modo in cui un software, una macchina, è in grado di rendere più veloce il processo di analisi di milioni di dati che l’occhio umano non sarebbe in grado di leggere e capire in poco tempo. L’IA è dietro le app del meteo e quelle delle mappe che ci aiutano a orientarci per strada, ma mette anche in ordine i risultati dei motori di ricerca e definisce quali contenuti vediamo sulle nostre bacheche dei social network. La usano gli eserciti per identificare i target da colpire e i medici per riconoscere malattie e tumori da milioni di immagini analizzate dai computer. E molto, molto altro.

A prescindere dell’ambito in cui ci muoviamo, i dati sono quindi fondamentali, perché modelli di IA sono addestrati su dataset di milioni di dati per riconoscere pattern che si ripetono. Per esempio per effettuare previsioni, prendere decisioni o identificare oggetti, linguaggi e volti. Dati ben etichettati permettono all’IA di apprendere in modo più efficiente e di evitare bias o previsioni errate. I modelli di IA diventano più robusti e inclusivi quando vengono addestrati su dati che rappresentano una varietà di scenari, culture e contesti sociali.

Il bias nei dati è un tema centrale quando si parla di intelligenza artificiale. Quali sono i tipi più comuni di bias che si possono riscontrare nei dataset?

Un bias si verifica quando i dati utilizzati contengono pregiudizi (anche nel processo di labelling) che portano a risultati distorti. Può verificarsi un bias di selezione o rappresentazione se i dati non rappresentano l’intera popolazione o contesto. Quando un algoritmo per la selezione del personale viene addestrato solo su dati provenienti da candidati di un determinato genere o background culturale, per esempio, è probabile che sia meno efficace o equo nel valutare candidati provenienti da gruppi diversi.

C’è poi il bias di conferma quando i dati riflettono pregiudizi preesistenti o visioni del mondo già distorte. Un esempio può essere l’uso di dati storici nelle decisioni giudiziarie: se in passato certi gruppi sono stati trattati in modo più severo, l’algoritmo rischia di perpetuare queste ingiustizie. Un caso ben documentato da un lavoro di ProPublica sull’algoritmo Compas usato nel sistema giudiziario negli Stati Uniti.

Un bias a cui non facciamo forse ormai più attenzione è il bias di interazione che si verifica quando gli utenti che interagiscono con l’algoritmo alimentano inconsapevolmente il bias. Pensiamo ai sistemi di raccomandazione di contenuti delle piattaforme in streaming che tendono a mostrare contenuti simili a quelli già apprezzati, creando una sorta di “bolla” informativa e rafforzando determinati pregiudizi.

In che modo i bias presenti nei dati possono influenzare le decisioni prese dai modelli di intelligenza artificiale? Ci sono stati esempi concreti in cui i bias nei dati ha causato problematiche rilevanti?

Ce ne sono così tanti che esiste persino un osservatorio che li raccoglie tutti. È il Data Harm Report, aggiornato dal Data Justice Lab, che tiene traccia di tutte le violazioni dei diritti causate dagli algoritmi, intenzionalmente oppure accidentalmente.

I bias presenti nei dati possono distorcere le decisioni prese non dai modelli di intelligenza artificiale (IA), ma dagli esseri umani. Le decisioni non sono mai prese dai computer, anche quelle in cui scelgo di non intervenire a modificare i risultati prodotti dalle IA. Un esempio di cui si è parlato recentemente è quello di VioGén, un algoritmo usato in Spagna per ottimizzare e automatizzare la valutazione del rischio dei casi di violenza di genere. Peccato che un reportage del New York Times ha messo in evidenza che, dal 2007, almeno 247 donne sono state uccise dal loro partner o ex partner dopo essere state valutate da VioGén. Questo perché, nel 95% dei casi, gli agenti mantengono il punteggio di rischio assegnato automaticamente dal sistema e non fanno valutazioni umane. 

Anche nel linguaggio si riproducono stereotipi di genere con le IA. Uno studio pubblicato nel dicembre 2023, condotto da un team di ricerca dell’università della California, ha dimostrato che i modelli di linguaggio di grandi dimensioni (LLM) riproducono bias di genere nelle lettere di raccomandazione generate dai loro chatbot. I candidati maschi sono spesso descritti come più professionali rispetto alle femmine, mentre le donne sono viste come meno capaci e meno professionali, con maggiori riferimenti alla loro vita personale. Associano ai candidati maschi parole come “leader” ed “eccezionale”, alle donne aggettivi come “deliziosa” e “compassionevole”. Tutto questo influenza negativamente la percezione delle abilità e dei risultati delle candidate.

Come vede l’uso dell’intelligenza artificiale nel settore finanziario, soprattutto in ambiti come il credito e la gestione degli investimenti? I bias nei dati possono influenzare l’accesso al credito o le decisioni di investimento?

Non sono un’esperta sul tema, lo confesso. Ma nel contesto dell’accesso al credito un algoritmo potrebbe negare un prestito a una persona non perché questa non sia in grado di ripagarlo, ma perché appartiene a un gruppo demografico che, storicamente, ha avuto meno accesso al credito. In questo caso il problema non riguarda solo i dataset, ma come uso i dati per classificare le persone e prevedere il loro comportamento futuro.

Definire l’accesso al credito non è una pratica nuova. Negli anni Trenta con il New Deal il governo federale degli Stati Uniti si impegnò a sostenere il mercato immobiliare attraverso i mutui garantiti dallo Stato, ma stabilì che queste agevolazioni non sarebbero arrivate ovunque. I quartieri abitati in gran parte da neri vennero evidenziati in rosso nelle mappe (redlining) e i loro abitanti non avrebbero percepito nulla. Oggi si parla di “digital redlining” quando le tecnologie digitali perpetuano l’esclusione e la discriminazione di gruppi.

Quali strategie o tecniche possono essere più efficaci per eliminare, o quantomeno mitigare, i bias nei dati durante la fase di raccolta e preparazione?

Nei sette principi del femminismo dei dati (definiti da Catherine D’Ignazio e Lauren Klein nel libro omonimo) ce ne sono diversi che possono esserci utili, come per esempio il coinvolgimento attivo dei gruppi marginalizzati nei processi di raccolta e analisi dei dati, il superamento delle strutture binarie e l’importanza del contesto. Le persone che sono spesso oggetto delle analisi dei dati dovrebbero essere incluse nella definizione di quali dati raccogliere e come utilizzarli, in modo da garantire che le loro esperienze e prospettive siano rappresentate correttamente. Deborah Stone, scienzata politica, invita infatti a chiederci «chi era nella stanza» quando sono state poste le domande utili ai fini della produzione statistica.

Il contesto, invece, è fondamentale perché bisogna comprendere i dati all’interno delle strutture di potere e delle dinamiche sociali che li generano, per evitare che siano interpretati in modo distorto. Superare le strutture binarie è poi fondamentale. Molte delle categorie con cui i dati vengono tradizionalmente raccolti e organizzati (ad esempio, genere maschile/femminile, nord/sud, ecc.), infatti, sono limitanti e non riflettono la complessità e la diversità della realtà umana. Semplificano eccessivamente le esperienze individuali e collettive, escludendo persone che non si identificano in queste categorie rigide, come le persone non binarie o che appartengono a identità razziali o etniche multiple.

In che modo istituzioni e aziende stanno affrontando le questioni etiche legate ai bias nei dati e all’intelligenza artificiale?

Una delle prime azioni è garantire che i dati raccolti siano rappresentativi della popolazione o del fenomeno che l’algoritmo deve analizzare. Raccogliere dati che vadano oltre le variabili tradizionali, per includere il contesto socioeconomico o fattori storici, può aiutare a ridurre i bias. Una volta raccolti i dati, esistono tecniche matematiche e statistiche per “bilanciare” i dataset. Ad esempio, è possibile applicare algoritmi che identificano e correggono squilibri nei dati, come sovra o sottorappresentazioni di un particolare gruppo. Poi: essere pronti a tornare indietro dopo aver valutato gli errori, non avere fretta di implementare una soluzione di IA senza magari farsi aiutare da chi può fare valutazioni etiche e, possibilmente, evitare di considerare le risposte della macchina come vere e universali. A volte, più semplicemente, la domanda da farsi è: è corretto che sia un algoritmo a decidere, invece che un essere umano?

Quali saranno le criticità principali in futuro nell’uso dell’intelligenza artificiale per prendere decisioni basate sui dati?

Da una parte, man mano che i modelli di IA diventano più complessi, risulta più difficile spiegare come vengano prese certe decisioni, portando al cosiddetto problema della “black box”. Questa mancanza di trasparenza potrebbe minare la fiducia pubblica nei sistemi di IA e rendere complicato correggere eventuali errori o bias. Le decisioni non spiegabili sono particolarmente problematiche in ambiti critici come quello giudiziario o finanziario. Dall’altra, non arriva mai o quasi mai sul tavolo del dibattito il tema dello scegliere di non usare sistemi di IA per prendere decisioni. Nessuno ci obbliga. La presunta efficienza che potremmo ottenere usando sempre di più i sistemi automatizzati può invece aumentare le discriminazioni e casi di ingiustizia.

Quale consiglio potremmo dare a chi si sta avvicinando al mondo dei dati e dell’intelligenza artificiale, perché eviti di introdurre dei bias nei propri progetti?

È impossibile evitare i bias, così come è impossibile essere oggettivi e neutri, anche usando il miglior dataset mai realizzato. Tornando al femminismo dei dati, dobbiamo ricordarci che i dati sono costrutti sociali, quindi anche i sistemi automatizzati lo sono. Le decisioni su cosa raccogliere, da chi e come vengono interpretati i dati sono influenzate da strutture di potere, contesti sociali e storici. Forse acquisire questa consapevolezza è il passo più utile e incisivo.


Chiudiamo con una confessione: le domande di questa intervista sono frutto delle interazioni sul tema dei dati nelle IA avvenute tra l’intervistatrice e un’intelligenza artificiale. Intelligenza artificiale che ha tenuto a sottolineare che si tratta di un “ottimo tema” di cui discutere. Come darle torto, visti gli spunti di riflessioni offerti da Donata Columbro?