Giornalismo e intelligenza artificiale: dove porteranno gli algoritmi?
L'ingresso dell'intelligenza artificiale nel mondo del giornalismo porta trasformazioni, rischi e opportunità. E necessità di trasparenza
Da testo a immagine, video, audio e viceversa: con i software di intelligenza artificiale Large Language Model, basta avere un formato per produrne in automatico altri tre. È l’Intelligenza Artificiale (IA) basata sull’elaborazione del linguaggio naturale, di cui Chat-GPT è l’esempio più famoso ma che è entrata da tempo nelle redazioni giornalistiche. Dalla raccolta dei dati alla distribuzione dei contenuti, non c’è fase del ciclo di produzione della notizia che non possa essere assistita da software di intelligenza artificiale. Quanto vengono utilizzati davvero? E come incidono sulla relazione di fiducia con chi legge?
Etichette che contano: SEO, Large Language Model (LLM) e anche allucinazioni
Questo articolo è una sequenza di parole concatenate tra loro, così come ogni elemento in una immagine, un audio o un video può essere scomposto ed etichettato con parole specifiche per essere leggibile dalle macchine algoritmiche. L’elaborazione di linguaggio naturale calcola quante volte e dove una parola-etichetta compare in un contenuto, quante volte si collega alle altre parole, quali sono quelle a cui si abbina più spesso, in modo da correlarle e riprodurre sequenze simili, quindi eseguire il compito assegnato.
È l’evoluzione della logica della SEO, la logica delle parole-chiave, degli hashtag, dei tag e dei metatag per classificare un contenuto e renderlo visibile su piattaforme e motori di ricerca: dopo qualche decennio passato a etichettare per le macchine, ora le macchine possono scrivere per noi, insieme a noi ma anche, tendenzialmente, senza di noi.
Il primo software Large Language Model (LLM) ad essere usato in una redazione è stato Wordsmith per Associated Press, nel 2014: un sistema in grado di generare articoli a partire dall’analisi in tempo reale di report finanziari e risultati sportivi. Sono seguiti Heliograf (Washington Post), Bertie (Forbes), Juicer (BBC), Cyborg (Bloomberg) di cui già nel 2019 il New York Times scriveva che producesse circa un terzo dei contenuti dell’intera testata. Nei primi LLM data to text i dati dovevano essere ben strutturati, ovvero ordinati e classificati (stile tabella Excel) e le bozze dei diversi articoli, da cui avrebbe attinto il sistema, scritte dai giornalisti.
Prendere dati dal web per allenare gli algoritmi può porre problemi di copyright
Gli LLM transformer come ChatGPT sono invece allenati con tutto quello che trovano sul web: necessitano di lavoro umano di ulteriore etichettatura e “ripulitura” e soffrono di hallucination, ovvero di risposte false più o meno verosimili, date da correlazioni erronee o da previsioni probabili ma insensate. Prendere dati dal web per allenare algoritmi può fare incorrere in problemi di copyright: Getty Images ha citato in giudizio StableAI, produttrice di StableDiffusion, sostenendo che l’azienda abbia copiato più di 12 milioni di immagini dal proprio database senza autorizzazione o compenso.
Il 21 marzo Adobe ha lanciato una beta di Firefly, una IA text-to-image con modelli diversi in relazione alla licenza di utilizzo delle immagini: la Content Authenticity Iniziative prevede la creazione di uno standard con tag “Do not train”, nonché di un modello di remunerazione per i contributor che invece vogliano condividere le proprie immagini come fonte di elaborazione IA. Si ripropone quindi, in epoca contemporanea, il più classico problema deontologico: l’affidabilità delle fonti.
Tutto si spiega
ChatGPT, Bard e ErnieBot: perché chiedere all’intelligenza artificiale non è sempre intelligente
Cosa sono e come funzionano i chatbot basati sull’intelligenza artificiale e perché i limiti sono ancora molti
La raccolta dei dati e l’affidabilità delle fonti: un robot vale un essere umano?
Se definiamo un software IA come una macchina di classificazione, correlazione e remix di dati, il tema dell’affidabilità e della trasparenza delle fonti emerge ancora più chiaramente. Su quali database il software è stato allenato? Da quali invece attinge per produrre il proprio output? A queste domande è possibile rispondere con ragionevole certezza, perché rientrano nell’input fornito alla macchina: sono informazioni spesso riservate, ma esistenti. Con un buon campione statistico rappresentativo, così come stabilito dalle linee guida FDA per lo sviluppo dell’IA nei dispositivi medici, potrebbero essere mitigate molte delle distorsioni cognitive (bias) che caratterizzano gli algoritmi.
Le fonti dell’IA possono quindi almeno in linea di principio essere verificate, con la collaborazione degli sviluppatori e degli utilizzatori. I segnali dalle big tech non sono incoraggianti: OpenAI è sempre meno open e non ha rilasciato alcuna informazione sul metodo di addestramento e sui database di GPT-4; Microsoft, cofinanziatrice di OpenAI, ha licenziato l’intero team “Etica e società” in ambito IA che si occupava dell’impatto etico dei prodotti già in fase di progettazione.
Quattro giorni dopo la presentazione di Microsoft Copilot 365, il software che integra ChatGPT con le applicazioni di Office e i database aziendali, OpenAI ha disattivato temporaneamente il chatbot per risolvere un bug che ha permesso ad alcuni utenti di vedere i titoli (non i contenuti) delle conversazioni di altri nella propria cronologia delle interazioni. Nelle FAQ si continua a specificare di non condividere dati sensibili nelle richieste a ChatGPT.
Verificare le fonti dell’IA e l’IA come fonte: come possono difendersi i lettori?
Il 22 marzo Mozilla Foundation ha annunciato l’investimento di 30 milioni di dollari in Mozilla.ai, una startup per costruire un ecosistema IA in open source, con strumenti «che rendano l’intelligenza artificiale generativa più sicura e trasparente. E sistemi di raccomandazione incentrati sulle persone, che non siano fuorvianti e non compromettano il nostro benessere».
Infatti, se verificare le fonti dell’IA è difficile, verificare l’IA stessa come fonte è ancora più difficile, perché difficile è ricostruire in piena trasparenza il processo di elaborazione di tutti gli algoritmi IA, specialmente di deep learning, che non a caso vengono definiti black box, scatole nere: per farlo è nata l’XAI – eXplainable AI, la costruzione di modelli matematici che spiegano agli umani come si è arrivati al risultato. I metodi principali semplificano la struttura della black box, oppure la scompongono in più parti, oppure ne riducono il campo di azione e il campione di dati. La scatola nera resta quindi sempre parzialmente opaca ma, almeno, diventa comprensibile.
Nelle redazioni, gli algoritmi di IA vengono utilizzati per velocizzare la raccolta di notizie attraverso l’elaborazione dei dati da feed RSS verificati o l’analisi dei social media e dei commenti generati dagli utenti: possono restituire grafici, word cloud, bozze di testo. Ancora una volta: data to text.
L’IA nella produzione e distribuzione di contenuti
I software IA, trasformer come ChatGPT o meno, possono elaborare flussi di dati da fonti eterogenee: nel giornalismo, possono essere collegati al sistema di gestione dei contenuti per ottimizzarne la produzione e la distribuzione.
Da un lato, infatti, gli algoritmi possono individuare e analizzare le caratteristiche dei diversi pubblici, dall’altro assorbire temi e linguaggi da tutti i contenuti classificati in archivio: la promessa è distribuire il contenuto giusto nel mix di formati giusto per il target giusto nel momento giusto. Il Sacro Graal del marketing per un settore in crisi da decenni.
«L’IA è ormai presente ovunque in molte redazioni», ha affermato David Caswell, executive product manager della BBC lo scorso febbraio durante un webinar della International News Media Association. Entro quest’anno BBC farà migrare tutti i giornalisti su Optimo, il nuovo sistema di gestione modulare dei contenuti per raccontare storie in modi diversi a pubblici diversi. Non è solo una questione di formati: Caswell ha menzionato l’approfondimento del contesto storico a seconda delle generazioni o di quello geografico a seconda della località in cui ci si trova. Di fatto, quindi, si potrebbe arrivare a versioni diverse della stessa storia in relazione al pubblico di riferimento: è in corso di sperimentazione il programma object-based media o flexible media, per questo tipo di esperienze dinamiche di fruizione.
La necessità di trasparenza
In che modo la personalizzazione della notizia si concilierà con la dimensione sociale dell’informazione? Se ogni gruppo editoriale diventerà piattaforma valorizzando al massimo la targettizzazione dell’utenza attraverso l’elaborazione di dati di prime parti, riuscirà a non trasformare ogni gruppo-target in una camera dell’eco?
Quanto più una notizia è inaspettata, tanto più è informativa: e per accrescere la fiducia necessaria a far riflettere chi legge fuori dalla propria comfort zone, gli esseri umani che scrivono sono chiamati alla stessa trasparenza di metodo che chiedono alle macchine.
Se Medium, Wired, SlowNews hanno pubblicato di recente le proprie IA policies, Associated Press ha condiviso online l’intera strategia: utilizza tool per il rilevamento di notizie da social media, per la trascrizione automatica dei video in tempo reale, sta testando l’utilizzo di riassunti automatizzati e realizzando la prima tassonomia di computer vision del settore.
Gli strumenti open-source per le redazioni locali
Nel 2021 la Knight Foundation Initiative ha analizzato 130 progetti di IA nel giornalismo dal 2012 al 2020: la maggior parte viene realizzata da grandi news industries ma, secondo il report, 44 dei 130 progetti esaminati potrebbero essere adattati per aiutare le piccole redazioni.
Quasi la metà dei progetti usa l’IA per «aumentare la capacità di reporting», poi «per ridurre i costi variabili», attraverso l’automazione di trascrizioni, etichettature di immagini e video e produzione di storie automatizzate su sport, elezioni, mercato immobiliare; «per ottimizzare le entrate» attraverso paywall dinamici, motori di raccomandazione e digitalizzazione degli archivi; per l’«engagement» dei pubblici; per «l’autocritica» ovvero ridurre i bias di rappresentazione nelle storie.
Ne è un esempio Janet Bot, l’alert che è stato utilizzato dal Financial Times per riequilibrare le immagini di genere nella homepage. Tra i progetti del report anche quelli di JournalismAI, il programma della London School of Economics finanziato dalla Google Initiative che organizza corsi di formazione a cui hanno partecipato anche redazioni italiane.
«Riconosciamo che tenere un giornalista in ascolto sulla politica nazionale è estremamente costoso»
A partire da questo report, la Knight Foundation ha finanziato iniziative di formazione e sviluppo di tool open source per le redazioni locali: l’iniziativa Local News AI, in collaborazione con Associated Press; la Partnership on AI, un’associazione noprofit di cui fanno parte molte big tech; l’AI4Reporters Tip Sheet che aiuta nella produzione di notizie sulla cronaca politica attraverso l’accesso agli atti pubblici.
«Riconosciamo che è estremamente costoso tenere un giornalista in ascolto su ogni evento di politica nazionale», ha dichiarato Lindsay Grace, Knight Chair for Interactive Media e professore associato alla Scuola di Comunicazione dell’università di Miami tra i coautori dell’AI4Reporters Tip Sheet. «Questi algoritmi IA sono una sorta di sensori che fanno questo lavoro per loro».
Tra sostituzione, collaborazione e fake
Come per altri settori, anche per il giornalismo l’introduzione di strumenti automatizzati può far prefigurare una “Robocalisse” che rende inutili gli esseri umani. E, come in altri settori, il rischio è scaricare sulla macchina responsabilità tutte umane, basate su una concezione ottocentesca del diritto del lavoro. Valori.it ha chiesto per questo un commento sul rapporto fra IA e giornalismo alla Federazione Nazionale della Stampa Italiana (FNSI), il maggiore sindacato di categoria. Per ora, però, non è stato possibile ottenere un commento sulla questione: la nostra testata lo pubblicherà non appena disponibile.
Leggi anche
Che fine fa il diritto del lavoro se “il tuo capo è un algoritmo”?
Nel saggio “Il tuo capo è un algoritmo”, Antonio Aloisi e Valerio De Stefano tracciano le prospettive del mercato del lavoro
Chi produce questi sistemi preferisce parlare di cobot, robot collaborativi che supportano gli esseri umani: in realtà, come abbiamo visto, più che robot umanoidi o antropomorfi sono software multifunzionali dalle interfacce più o meno specializzate.
Una di queste suite, Asimov, dall’Italia nel 2021 ha vinto la medaglia d’oro al Waic di Shanghai, il congresso mondiale sull’intelligenza artificiale, come Best practice applied algorithms. «Usare Asimov è come avere il cambio automatico in una guida dell’automobile che resta umana», spiega Nicola Grandis, CEO della startup Asc27. Il sistema è un insieme di reti neurali a tre livelli, che unisce machine learning, deep learning e GAN – Generative Adversarial Networks ed è descritto da un modello di XAI basato su Shap. Asimov si collega ai dati del CMS di un blog o una testata per individuare trend, monitorare competitor, produrre rassegne stampa verticalizzate e bozze di contenuti data to text e text to text in diversi formati, nonché suggerire l’ottimizzazione del contenuto in base ai pubblici.
Perché usare deep fake (autorizzati e con disclaimer)
Può essere utilizzato anche per produrre avatar in 2D per podcast e video: la persona reale viene ripresa dalle telecamere mentre legge fogli bianchi o muove le mani, e da quelle registrazioni di immagini e voce possono essere generati video e audio per il broadcasting. «Prendiamo un commentatore di Formula 1 che deve girare 10-15 spot da 20 secondi in cui invita i telespettatori a collegarsi», spiega Grandis. «Dovrebbe registrarli tutti mesi prima, con testi quindi poco attualizzati: in questo modo invece accetta di avere un deep fake autorizzato di sé stesso a cui presta figura e voce. Viene pagato per questo ed è libero di spostarsi tra una tappa e l’altra delle gare».
Nel 2018 l’agenzia cinese Xinhua ha fatto debuttare l’avatar del conduttore Qiu Hao, che si è presentato come tale agli spettatori: ne esistono quindi di simili anche in Italia. «Noi suggeriamo sempre di inserire un disclaimer» chiosa Grandis. Il vicepresidente della sua startup è Marco Pratellesi, vicedirettore di Oggi e già caporedattore digital Corriere della Sera e Gruppo GEDI, direttore dello sviluppo editoriale digitale di Condé Nast, co-caporedattore Agi.
Il primo conduttore IA in inglese di XinhuaUn uso temperato dell’IA: il caso di Sallo!
A inserire esplicitamente il tag “IA” sui contenuti che produce è la startup “Sallo”, app di videonews lanciata lo scorso gennaio e basata sulle preferenze dell’utente. «Dietro Sallo! c’è una redazione giornalistica. Accanto ai giornalisti ci sono alcuni robot» si legge prima di procedere alla registrazione. I dati richiesti sono essenziali: nome e città, il numero di telefono è opzionale. Quindi occorre indicare almeno tre temi di maggiore interesse per la composizione del feed di videonotizie principale, “Mix”, in cui sono inserite anche le top news ritenute rilevanti dalla redazione. «La struttura giornalistica è di 14 persone, tutte contrattualizzate», spiega il direttore Giuseppe Smorto, già vicedirettore de La Repubblica. «Sallo! fa un uso temperato dell’IA: l’ultima parola prima della pubblicazione di ogni contenuto spetta ai giornalisti».
L’IA collabora nella composizione dei video sui testi delle news e, soprattutto, nella composizione del feed visualizzato dall’utente, chiamato a raggiungere «obiettivi giornalieri di informazione» sulla base del tempo che vuole trascorrere sulla app: da 15 a 60 minuti, per videonews che durano da 15 a 30 secondi.
L’IA è qui per restare, anche nel giornalismo
L’algoritmo IA punta a bilanciare la “dieta informativa” tra le notizie di interesse, quelle indispensabili e l’esplorazione di nuovi argomenti anche attraverso l’invio di notifiche sullo smartphone. Il modello di business si basa sulla pubblicità targettizzata tra un video e l’altro e, di nuovo, sui first-party data, i dati di proprietà. «È una app di servizi di informazione che non compaiono su Google», conferma Smorto, affiancato in quest’avventura editoriale da Massimo Razzi, già direttore di Kataweb. L’azionista di maggioranza dell’iniziativa, Alessandro Vento, è stato cofondatore nel 2010 e amministratore delegato fino al 2022 di D-Share, società specializzata in soluzioni ad alta tecnologia per l’industria dei media, già co-partecipata dal gruppo L’Espresso, per cui ha sviluppato il sistema editoriale Kolumbus, e controllata dal 2019 da Agi, l’agenzia di stampa del gruppo Eni.
Che si pensi come un cobot o come un insieme di algoritmi, l’IA è qui per restare. E di sicuro, se pur di dare risposte a volte le inventa, non è programmata né per fare domande, né per fare reportage, in cui la presenza fisica ha una rilevanza fondamentale. Che sia da sprone per il ritorno del buon vecchio “andare a vedere”?