Ogni contenuto, articolo, post, fotografia, pubblicato online è una finestra aperta sulla propria identità professionale e intellettuale. In un web sempre più abitato da agenti non umani, capaci di osservare, tracciare, copiare e immagazzinare informazioni ciò che viene esposto può facilmente essere assimilato, trasformato e riutilizzato, diventare cioè materia prima per l’addestramento di modelli computazionali, senza che l’autore ne sia consapevole.
In questo contesto, possiamo, e se sì, come, proteggere i nostri contenuti da questo tipo di utilizzo?
1. Il quadro normativo UE: copyright, TDM e opt-out
Il presupposto, più o meno esplicito, su cui si sono basate, quanto fino ad oggi, le piattaforme AI è che tutto ciò che è accessibile online sia anche utilizzabile per finalità di addestramento.
È una premessa discutibile, giuridicamente e concettualmente: l’accessibilità non implica, infatti, disponibilità libera, né tantomeno cessione implicita di diritti.
L’ordinamento europeo offre una serie di strumenti – ancora frammentari in verità – per contrastare l’uso indiscriminato dei contenuti a fini di machine learning.
La Direttiva Copyright 2019/790/UE, recepita in Italia agli artt. 70-ter e 70-quater Legge sul Diritto d’Autore 633/1941, introduce due eccezioni per il text and data mining (“TDM”):
Art. 3: per ricerca scientifica, riservata a enti qualificati.
Art. 4: per finalità commerciali, consentita solo in assenza di un’esplicita riserva (c.d. “opt-out”) da parte del titolare dei diritti.
Ne abbiamo parlato più nel dettaglio Qui
2. Come esercitare l’opt-out
La suddetta normativa consente agli autori di opporsi all’uso di una propria opera a fini di TDM formulando un’esplicita riserva o c.d. “opt-out”.
A tal fine, è possibile ipotizzare l’adozione di alcuni accorgimenti, tra cui:
– ricorso a file tipo di “robots.txt” che indica ai crawler le aree del sito da escludere dalle loro rilevazioni;
– ricorso a metatag come “noai”, “nocrawl”, che possono fornire segnali tecnici agli strumenti AI;
– redazione e pubblicazione di condizioni d’uso del proprio sito internet con clausole di espressa riserva dei diritti.
Gli accorgimenti di cui sopra non sono misure tecniche che impediscono in assoluto l’appropriazione dei contenuti pubblicati. Tuttavia, detti espedienti sono utili a manifestare la volontà dell’autore e possono rilevare in sede di contenzioso o anche qualora si intenda agire in via stragiudiziale nei confronti di una piattaforma AI chiedendo la rimozione volontaria di opere dai relativi dati di addestramento.
È importante configurare gli strumenti di opt-out in modo selettivo e consapevole, bloccando solo i crawler delle piattaforme AI, senza pregiudicare l’indicizzazione da parte di Google o altri motori generalisti. Infatti, alcune misure tecniche – in particolare l’uso improprio di direttive come Disallow: / nel file robots.txt o del metatag noindex – possono avere ripercussioni negative sul posizionamento online di un sito in termini di SEO, comportando la deindicizzazione del sito dai motori di ricerca.
3. Il caso Kneschke contro LAION
Riguardo all’applicazione dell’eccezione di TDM e l’esercizio dell’opt-out da parte dell’autore, vi è stata una pronuncia di rilievo resa dal Tribunale di Amburgo il 27 settembre 2024 (caso Kneschke contro LAION), giunta all’esito di un contenzioso avviato dal fotografo Robert Kneschke che ha citato in giudizio LAION, una organizzazione no-profit avente il fine di promuovere la ricerca in ambito AI mediante messa a disposizione di dataset accessibili per finalità di addestramento. In particolare, il fotografo contestava a LAION di aver incluso una sua fotografia, scaricata da un sito di stock, in un determinato dataset poi utilizzato per addestrare modelli di AI.
Il Tribunale tedesco ha respinto le domande dell’attore, riconoscendo che LAION poteva avvalersi dell’eccezione di TDM per ricerca scientifica (ciò ai sensi della normativa tedesca attuante l’art. 3 della Direttiva Copyright 2019/790/UE), anche se l’attività era propedeutica ad attività di AI generativa.
In via incidentale (“obiter dictum”), il Tribunale ha ritenuto altresì che LAION avrebbero potuto avvalersi dell’eccezione della finalità non-commerciale (ai sensi della normativa tedesca attuante l’art. 4 della Direttiva Copyright 2019/790/UE), considerando l’assenza, nel caso di specie, di un opt-out efficace da parte dell’autore. Il Tribunale ha tuttavia offerto una interpretazione piuttosto ampia circa la possibilità di esercitare l’opt out anche con accorgimenti formulati in linguaggio naturale, purché leggibili da una macchina.
La pronuncia in questione rappresenta uno dei primi casi a livello UE relativo al potenziale ambito di applicazione degli art. 3 e 4 della Direttiva Copyright 2019/790/UE in ambito AI.
4. AI Act e nuovo Code of Practice UE
Infine, si deve segnalare – limitandosi per brevità ad alcuni cenni in questa sede – che il Regolamento (UE) 2024/1689 sull’Intelligenza Artificiale (“AI Act”), entrato in vigore nel 2025, sebbene non ancora a regime, impone obblighi di trasparenza e documentazione delle fonti nei modelli generativi (artt. 53-55).
In proposito, la Commissione Europea ha recentemente pubblicato il General-Purpose AI Code of Practice, uno strumento di soft law, utile a facilitare la compliance rispetto all’AI Act. Il General-Purpose AI Code of Practice include previsioni dedicate a copyright, opt-out e tracciabilità dei dataset (vedi Qui).
L’adesione al General-Purpose AI Code of Practice non sarà tuttavia obbligatoria, ma comporterà presunzioni favorevoli in sede di eventuale verifica da parte delle autorità di controllo.
5. Considerazioni finali
La pubblicazione online, oggi, è un atto che espone a potenziali forme di appropriazione algoritmica. La normativa UE consente di esercitare un certo grado di controllo. Tuttavia, per tutelare i propri contenuti da scraping e addestramento non autorizzato, occorre adottare misure chiare, combinate e documentabili, secondo un approccio strategico e multilivello:
– Audit tecnico-legale del proprio sito
– Configurazione di robots.txt e metatag
– Aggiornamento dei termini d’uso, utilizzo licenze o riserve contrattuali
– Monitoraggio dell’eventuale uso non autorizzato delle proprie opere
– Valutazione dell’opportunità di inviare diffide o intraprendere altre azioni
FAQ – Contenuti online e AI generativa
I miei contenuti possono essere usati per addestrare AI solo perché pubblici?
No. In linea di principio, se i contenuti sono protetti da copyright, servirebbe una licenza. Il semplice fatto che tali contenuti siano “visibili” online non equivale a un consenso al relativo sfruttamento da parte di terzi.
Posso impedire l’uso da parte delle AI?
Sì, con misure tecniche (robots.txt, metatag) o contrattuali (condizioni d’uso del sito). Metodi non infallibili, ma fondamentali per non rinunciare a una qualche forma di tutela.
Il nuovo AI Act protegge i miei diritti?
Parzialmente: impone obblighi di trasparenza, ma non vieta l’uso di contenuti pubblici. Servirà pertanto agire preventivamente.
Il General-Purpose AI Code of Practice sarà vincolante?
No, si tratta di una misura non vincolante. Il General-Purpose AI Code of Practice però potrà creare uno standard di soft law utile a orientare i processi di compliance e, di conseguenza, il contenzioso.
Tag:
Hai bisogno di una consulenza specifica?
Ogni situazione è unica. Una strategia su misura può aiutarti a vedere finalmente i tuoi sforzi premiati.
Richiedi Consulenza Iniziale Senza Impegno