Web scraping e intelligenza artificiale: la nota del Garante

La “Nota informativa” del Garante privacy in materia di web scraping per finalità di addestramento di intelligenza artificiale generativa. Per capire meglio di che cosa si sta parlando e perché l’indagine del Garante è così importante, è utile fornire una breve spiegazione sugli algoritmi di intelligenza artificiale, sull’intelligenza artificiale generativa e sul fenomeno del webscraping. Il volume “Ai Act -Principi, regole ed applicazioni pratiche del Reg. UE 1689/2024” curato da Michele Iaselli si propone di rispondere proprio a queste sfide.

Garante privacy -Provvedimento n. 269 del 20-05-2024

Web-scraping-ed-intelligenza-artificiale-generativa-nota-informativa-e-possibili-azioni-di-contrasto.pdf 400 KB

Iscriviti alla newsletter per poter scaricare gli allegati

Grazie per esserti iscritto alla newsletter. Ora puoi scaricare il tuo contenuto.

Indice

1. Premessa: cos’è il web scraping
2. Le indicazioni del Garante
3. Conclusioni
Per un approfondimento sull’intelligenza artificiale

1. Premessa: cos’è il web scraping

Da diverso tempo ormai, sono diventati di pubblico utilizzo i sistemi di intelligenza artificiale (quali ad es. chat GPT) che presentano i più disparati impieghi. Al fine di permettere sempre una più ampio sviluppo di detti sistemi e una loro maggiore precisione, i programmatori utilizzano i dati presenti nel web. A tal fine, i soggetti che sviluppano sistemi di intelligenza artificiale generativa raccolgono massivamente grandi quantità di dati, anche personali, pubblicati nei siti web e nelle piattaforme online gestiti da soggetti pubblici e privati, stabiliti nel territorio italiano.
Infatti, la navigazione nel web si basa su protocolli aperti che consentono di reperire informazioni e dati pubblicamente disponibili online oppure resi disponibili in aree ad accesso controllato. Dette informazioni e dati, presenti sul web, possono essere raccolti in maniera sistematica anche attraverso programmi (web robot) che operano in maniera automatizzata simulando la navigazione umana, a condizione che i siti web, le pagine dei social network e in generale i contenuti visitati da questi programmi risultino accessibili al pubblico indistinto e non sottoposte a controlli di accesso.
Si parla di web scraping allorquando l’attività di raccolta massiva ed indiscriminata di dati è associata alla memorizzazione e alla conservazione dei dati che vengono raccolti dai predetti programmi (c.d. bot), per poi essere analizzati, elaborati ed utilizzati.
Spesso gli sviluppatori dei programmi di intelligenza artificiale generativa raccolgono i dati tramite le tecniche di web scraping, o comunque utilizzano grandi moli di dati precedentemente raccolte da altri soggetti attraverso tecniche di web scraping, e li utilizzano per l’addestramento di tale tipologia intelligenza artificiale.
I gestori pubblici e privati di siti web e di piattaforme online, che sono stabiliti in Italia, hanno l’onere di rispettare i principi fondamentali previsti dal Regolamento europeo per la protezione dei dati personali (GDPR), quali quelli di limitazione della finalità, di minimizzazione dei dati, di integrità e riservatezza dei dati e in generale di trattare di dati sulla base di una o più basi giuridiche previste dal Regolamento medesimo.
In considerazione di tali oneri e del fatto che l’attività di web scraping comporta l’acquisizione di dati dai siti web, che possono avere anche il carattere di dati personali, il Garante ha ritenuto utile fornire delle prime indicazioni sulle tecniche di raccolta massiva di dati personali dal web per finalità di addestramento dei modelli di intelligenza artificiale generativa ed indicare ai gestori dei siti web e di piattaforme online, stabiliti in Italia, possibili azioni di contrasto che potrebbero essere adottate per mitigare gli effetti del web scraping di soggetti terzi finalizzato all’addestramento di sistemi di intelligenza artificiale generativa (ovviamente nel caso in cui, il titolare del trattamento ritenesse tale attività incompatibile con le finalità e la base giuridica in base a cui egli ha pubblicato i dati personali in questione sul proprio sito web). Per approfondimenti consigliamo il volume “Ai Act -Principi, regole ed applicazioni pratiche del Reg. UE 1689/2024”

FORMATO CARTACEO

Ai Act

Quale impatto avrà l’intelligenza artificiale sulla nostra società e soprattutto sul diritto? Il testo esplora questa complessa intersezione, offrendo una guida dettagliata e completa.L’opera approfondisce l’evoluzione dell’AI, dalle sue umili origini nei primi sistemi esperti alle avanzate reti neurali e all’AI generativa di oggi.Analizza in modo critico il panorama normativo europeo, come il recente Regolamento n. 1689/2024, delineando il percorso legislativo e le regolamentazioni che cercano di gestire e governare questa tecnologia in rapida evoluzione.Gli autori affrontano temi fondamentali come l’etica dell’AI, la responsabilità legale, la sicurezza dei dati e la protezione della privacy.Il libro non si limita alla teoria: esplora anche le applicazioni pratiche dell’AI in vari settori, tra cui la giustizia, il settore finanziario, la pubblica amministrazione e la medicina.Attraverso casi di studio e analisi dettagliate, il libro mostra come l’AI stia trasformando questi ambiti e quali questioni giuridiche stiano emergendo.Inoltre, viene esaminato l’impatto dell’AI sul mondo del lavoro, evidenziando come l’automazione e le nuove tecnologie stiano cambiando le dinamiche lavorative e quali siano le implicazioni legali di queste trasformazioni.L’opera vuole essere una lettura essenziale per avvocati, giuristi, professionisti IT e tutti coloro che desiderano comprendere le complesse relazioni tra tecnologia e diritto, offrendo una visione completa e aggiornata, ricca di analisi critiche e riflessioni pratiche, per navigare nel futuro della tecnologia e del diritto con consapevolezza e competenza.Michele IaselliAvvocato, docente di Diritto digitale e tutela dei dati alla LUISS e di informatica giuridica all’Università di Cassino. Direttore del comitato scientifico di ANDIP e coordinatore del comitato scientifico di Feder-privacy. Funzionario del Ministero della Difesa ed esperto dell’Ufficio Generale Innovazione Difesa, è membro del Comitato di presidenza dell’ENIA (Ente Nazionale Intelligenza Artificiale).

Michele Iaselli | Maggioli Editore 2024

43.70 €

Scopri di più

2. Le indicazioni del Garante

La prima indicazione fornita dal Garante, a favore dei gestori di siti web e piattaforme on line, riguarda la creazione di aree riservate all’interno dei predetti siti e piattaforme.
Secondo il Garante, infatti, un valido strumento di tutela dei dati consisterebbe nel creare delle aree riservate, a cui si può accedere solo previa registrazione, in quanto sottrarrebbe i dati dalla pubblica disponibilità (come detto il web scraping viene realizzato dai bot accedendo alle pagine a libero accesso). Tra l’altro, il Garante ha precisato che la previsione di aree riservate non può dar luogo ad un trattamento di dati eccessivo da parte del titolare (e quindi non vi sarebbe una violazione delle disposizioni in materia di privacy che prevedono che i titolari del trattamento non devono imporre in sede di registrazione, agli utenti che navigano sui loro siti web o sulle loro piattaforme online e che fruiscano dei relativi servizi, oneri di registrazione ulteriori ed ingiustificati).
La seconda indicazione del Garante è quella di inserire delle apposite clausole nei termini di servizio.
Infatti, se venissero inserite delle clausole, nei Termini di Servizio di un sito web o di una piattaforma online, in cui si prevede il divieto di utilizzare tecniche di web scraping, l’eventuale violazione di detta clausola contrattuale permetterebbe ai gestori di detti siti e piattaforme di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte. Tale strumento potrebbe quindi svolgere una funzione deterrente.
In terzo luogo, il Garante ha suggerito il monitoraggio del traffico di rete.
I gestori dei siti potrebbero, infatti, verificare eventuali flussi anomali di dati in ingresso e in uscita da un sito web o da una piattaforma online e così intraprendere delle adeguate contromisure di protezione.
La quarta misura prevista dal Garante è l’intervento sui bot.
Come detto, per effettuare l’attività di web scraping vengono utilizzati i bot; pertanto qualunque tecnica in grado di limitare l’accesso ai bot è un efficace metodo per arginare l’attività automatizzata di raccolta dati che viene effettuata tramite tali software (per esempio l’inserimento di verifiche CAPTCHA, l’inserimento dei contenuti all’interno di immagini).

Potrebbero interessarti anche:

3. Conclusioni

Al termine della propria nota informativa, il Garante ha ricordato che l’intelligenza artificiale generativa può certamente comportare molti aspetti positivi per la società e l’obiettivo del diritto non deve certamente essere quello di limitare tali benefici o sminuirne il valore. Nonostante ciò, è importante comprendere che per poter addestrare i modelli che permettono il funzionamento di tali sistemi di intelligenza artificiale è necessario un quantitativo di dati (anche di carattere personale) davvero enorme e che molto spesso questi dati provengono da una raccolta massiva ed indiscriminata che viene effettuata sul web attraverso le tecniche di web scraping.
Pertanto, i gestori di siti web e di piattaforme online, che rivestono anche il ruolo di titolari del trattamento dei dati che sono contenuti all’interno dei propri siti e piattaforme, non possono limitarsi ad assolvere agli obblighi di pubblicità, di accesso e di riuso di detti dati, né tantomeno ad adottare le misure di sicurezza previste dalla normativa in materia di privacy. Essi, invece, in aggiunta al rispetto di tali obblighi e all’adozione delle opportune misure di sicurezza per proteggere i dati, dovrebbero valutare, caso per caso, quando risulti necessario, sottrarre i dati personali che possono essere acquisiti dai bot di soggetti terzi, proprio attraverso l’uso di azioni di contrasto come quelle indicate che sono state indicate dal Garante.

Per un approfondimento sull’intelligenza artificiale

STATI GENERALI DEL DIRITTO DI INTERNET E DELLA INTELLIGENZA ARTIFICIALE, IV° Edizione, 2024, diretti da Giuseppe Cassano e Francesco Di Ciommo

La Luiss, ospiterà nuovamente, gli Stati generali di Internet e della Intelligenza Artificiale, giunti alla IV° Edizione.

Programma https://www.luiss.it/evento/2024/11/28/stati-generali-diritto-internet-intelligenza-artificiale
Iscrizioni https://luiss.formstack.com/forms/stati_generali_diritto_internet_intelligenza_artificiale (evento esclusivamente in presenza)
Luiss, Viale Romania 32, AULA CHIESA
giov 28, ven 29, sab 30 novembre 2024

Registrarsi conviene

Indice

1. Premessa: cos’è il web scraping

Ai Act

43.70 €

2. Le indicazioni del Garante

3. Conclusioni

Per un approfondimento sull’intelligenza artificiale

Scrivi un commento

Il network

Categorie

I vantaggi della newsletter

Web scraping e intelligenza artificiale: la nota del Garante

Garante privacy -Provvedimento n. 269 del 20-05-2024

Iscriviti alla newsletter per poter scaricare gli allegati

Grazie per esserti iscritto alla newsletter. Ora puoi scaricare il tuo contenuto.

Indice

1. Premessa: cos’è il web scraping

Ai Act

43.70 €

2. Le indicazioni del Garante

3. Conclusioni

Per un approfondimento sull’intelligenza artificiale

Avv. Muia’ Pier Paolo

Scrivi un commento

Leggi anche

Intelligenza artificiale negli atti difensivi: il Tribunale di Firenze sulle allucinazioni AI

Meta e l’eterna illusione del gratuito online

Il Regolamento Generale sulla Protezione dei Dati (GDPR) – Scheda di Diritto

Intelligenza artificiale nei tribunali: d.d.l di innovazione o grande fratello?

Il network

Categorie