Le allucinazioni dell’IA e le tutele del GDPR

Scarica PDF Stampa

Facciamo una ricerca sul web e ci viene restituito un risultato, che riconosciamo sbagliato.
Chiediamo a ChatGPT di elaborare un testo, e scopriamo essere pieno di imprecisioni ed errori.
Tutti questi sono fenomeni comuni e quotidiani, che spesso toccano pesantemente i diritti delle persone, attraverso la produzione di informazioni false, sbagliate e fuorvianti.
In questo articolo proviamo a capire come ciò avvenga, perché e quali sono gli strumenti a nostra tutela.


Per approfondimenti si consiglia il seguente volume, il quale racconta un quadro unitario a giuristi, avvocati, praticanti e studenti relativo agli aspetti che interessano la Professione: Intelligenza artificiale – essere avvocati nell’era di ChatGPT

Indice

AI hallucinations

Gli attuali sistemi AI (basati su Machine Learning e Large Language Models) sono concepiti e programmati per dare a tutti i costi una risposta e, più precisamente, la risposta più probabile, non necessariamente quella giusta, corretta o vera.
È bene chiarire il concetto più in profondità, ovvero che “la risposta più probabile” non significa – né sotto il profilo logico, né sotto quello sintattico, né in senso di programmazione informatica o di concezione dell’algoritmo – necessariamente che sia anche “quella corretta”, ma solo che – date delle probabilità assunte ex ante e ingenerale per categorie generiche e omnicomprensive – la risposta sia la più probabile tra quelle possibili ricercate all’interno di un dataset di informazioni finito e limitato a quanto l’AI ha accesso.
Con una simile impostazione si possono facilmente verificare le cosiddette “allucinazioni” ossia output (risposte) che non sono basati su una verità oggettiva e che sono dunque un errore – o meglio – un dato sbagliato
Statistiche recenti riportate dal New York Times indicano che le risposte delle AI afflitte da allucinazioni variano dal 3 al 27%.
Se un errore inferiore al 10% può sembrare comunque basso, proviamo a pensare a che significa non tanto che una risposta su dieci sia sbagliata (peggio una su 3) quando dato un testo complessivo richiesto ad una AI generativa (diciamo un testo di 10mila parole) oltre il 10% di questo testo (oltre 1000 parole nel caso considerato) si riferiscono a informazioni e contengono dati sbagliati.
Immaginiamo di chiedere ad una Ai di generare un profilo su un candidato per una posizione professionale, per una anamnesi medica, per un articolo di giornale o per un profilo penale… e consideriamo poi che anche solo il 5% (senza finire al 25%) di questo profilo sia falso.
E adesso immaginiamo che – in tutti questi contesti – il profilo di cui parliamo sia il vostro.
Sin qui il dato “falso”.
Adesso prendiamo in considerazione sia qualitativamente che quantitativamente il testo di cui stiamo parlando.
Come da esperienza comune – ad esempio – la maggior parte dei siti e dei media di informazione più accreditati (dal NYTimes ai siti delle agenzie di stampa, dalla Treccani al telegiornale) non autorizzano i sistemi di Ai all’uso dei propri contenuti per gli addestramenti di AI (siano essi Machine Learningo Large Language Models).
Questo significa che il restante diciamo 90% del testo viene elaborato sulla base di dati e informazioni, e sulla sintassi e il modello di scrittura, che stanno a metà tra Wikipedia e Facebook, e qualche blog amatoriale.
Se a tutto questo associamo che – in assenza di ulteriori variabili – l’IA non ha modo di scegliere arbitrariamente o di discriminare altrimenti tra i 100 profili social di omonimi, e deve trarre “una media” delle informazioni trovate, possiamo comprendere di quale attendibilità stiamo parlando in concreto.
Per approfondimenti si consiglia il seguente volume, il quale racconta un quadro unitario a giuristi, avvocati, praticanti e studenti relativo agli aspetti che interessano la Professione:

FORMATO CARTACEO

Intelligenza Artificiale – Essere Avvocati nell’era di ChatGPT

Nell’anno appena trascorso l’intelligenza artificiale generativa, una delle sue forme più “creative”, è stata ed è ancora oggi uno dei temi più dibattuti. Avvocati e giuristi hanno iniziato a chiedersi se, oltre alla curiosità, le opinioni e i primi esperimenti, non sia opportuno iniziare a formarsi e acquisire nuove competenze nel proprio bagaglio professionale, ma nel mare magnum di informazioni molti si stanno ponendo la stessa domanda: “Da dove inizio?”. Questo libro nasce per rispondere al bisogno “di saperne di più”, raccontando in un quadro unitario a giuristi, avvocati, praticanti e studenti: quali sono gli aspetti che interessano la professione? Qual è lo stato dell’arte?  Le norme in vigore e in corso di approvazione che disciplinano l’utilizzo di AI nei settori principali del diritto, le prime esperienze presso gli studi legali, gli esempi e le istruzioni sui principali tool.Attraverso il racconto dei fatti, vengono naturalmente toccati anche i principali dibattiti in corso: gli aspetti etici, i temi della responsabilità civile in caso di danno, la tutela del copyright per le opere realizzate con le AI generative.Claudia MorelliGiornalista professionista, specializzata nei temi della legal industry e della digital transformation della giustizia, esperta di comunicazione legale. Professoressa a contratto presso l’Università di Bologna, dove insegna Comunicazione del Giurista, già responsabile della Comunicazione del Consiglio Nazionale Forense. Il presente volume è la sua prima riflessione organica sui temi della trasformazione digitale della professione forense.

Claudia Morelli | Maggioli Editore 2024

2. Le tutele del GDPR

Questa associazione erronea tra persona e dato di output fa scattare il sistema di allarme e di tutela della GDPR sotto diversi profili. Dei tanti diritti di tutela e autotutela assumono un ruolo centrale il diritto di accesso (Art.15) e il diritto di rettifica (Art.16).
L’esattezza dei dati personali è un principio consolidato da decenni nella privacy e racchiuso nell’art. 5.1d) GDPR.
Tale principio non prevede solo l’esattezza ma anche la possibilità di aggiornamento del dato.
In questo contesto è bene ricordare che il GDPR – per fortuna – è una normativa che non solo copre tutti i cittadini in tutti casi di gestione dati nel territorio dell’Unione Europea, ma impone precise regole di adeguamento anche in quei casi – sempre meno – di società del web che ad esempio on hanno dovessero avere una sede nell’Unione ma devono adeguarsi per il solo fatto di rendere nell’Unione disponibili i propri servizi e prodotti (ad esempio OpenIA con ChatGPT).
L’art. 15 GDPR corrisponde al diritto dell’interessato di ottenere – tra le altre cose – dal titolare la conferma del trattamento dei suoi dati, l’accesso agli stessi e la modalità di trattamento. L’accesso è dunque anche una manifestazione del principio di trasparenza (artt. 5 e 12 GDPR).
L’art. 16 GDPR, invece, riguarda il diritto di ottenere la rettifica dei dati personali inesatti.
In proposito va sottolineato e ricordato con forza e chiarezza che l’aggiornamento e la completezza sono una facoltà dell’interessato ma la rettifica è un obbligo per il titolare ogni volta che ha o dovrebbe avere contezza che sta trattando dati inesatti.
L’importanza di queste norme diviene ancora più rilevante se pensiamo che questi output sono totalmente automatizzati e che risulta difficile anche per il titolare del trattamento ricostruire la procedura seguita dall’AI per generare un determinato output.
OpenAI ad esempio ha negato l’accesso e la rettifica dei dati in alcuni casi sostenendo l’impossibilità di correggerli. La soluzione proposta sarebbe stata quella di applicare un filtro ai prompt che, però, impedirebbe a ChatGPT di filtrare qualsiasi informazione relativa all’interessato.
Google ad esempio consente accesso e rettifica dati “sino a un certo punto” – ovvero quelli detenuti in maniera diretta e funzionale – ad esempio quelli di registrazione dell’utente ai suoi servizi – dichiarando con chiarezza che “il dato di ricerca quando diventa metadato” (praticamente sempre) non è accessibile nemmeno a Google.

3. Il black box problem

Al fine di comprendere le difficoltà di esercizio dei diritti degli interessati è utile tenere in mente un grande limite tecnico dell’AI; il c.d. “black box problem” ossia l’impossibilità di comprendere realmente come un sistema di deep learning sia giunto ad un determinato output.
La normativa privacy richiede, soprattutto nei processi automatizzati, che il titolare sia in grado di fornire all’interessato “informazioni significative sulla logica utilizzata, nonché l’importanza e le conseguenze previste di tale trattamento per l’interessato” (Art. 15.1(h) GDPR).
Se è già difficile (se non in certi casi impossibile) per un tecnico AI ricostruire il percorso logico seguito dall’AI, sarà ancora più faticoso spiegarne il funzionamento in modo chiaro e trasparente all’interessato.
Questo limite tecnico – che esiste, ed è insito nel sistema “così come ad oggi concepito e programmato” – non può essere una giustificazione affinché il titolare del trattamento possa rifiutare una richiesta di accesso dell’interessato. Tale impostazione vanificherebbe l’applicabilità degli artt. 15 e 22 GDPR così come tecnicamente il diritto di rettifica (Art. 16 GDPR).
Il punto, a monte, è che la normativa è arrivata dopo, come spesso accade, e – in parte – le grandi aziende si sono mosse “nel vulnus” di una precedente normativa frammentata e spesso poco chiara.
Un output sbagliato potrebbe essere il risultato di uno nuovo elemento introdotto nel prompt su cui l’AI non era stata addestrata o l’utilizzo di un dato erroneo.
L’AI infatti è addestrata su dati che le vengono forniti e sulla sperimentazione di possibili combinazioni degli stessi (e appare poco credibile che noi siamo in grado e che sia economicamente sostenibile – in termini di programmazione e di risorse di calcolo – di prevedere tutti i possibili scenari da insegnare).
Il dibattito tra quantità e qualità del dato diviene rilevante soprattutto se pensiamo al principio del “privacy by design and by default”.
Tale principio ci porterebbe a favorire la qualità del dato e diviene pertanto cruciale nella progettazione della piattaforma AI essere in grado di prevedere una modalità della rettifica dei dati non solo in un’ottica di riduzione delle allucinazioni ma soprattutto in vista di uno sfruttamento dell’AI in settori più impattanti sui diritti degli interessati.

Scrivi un commento

Accedi per poter inserire un commento