Ce sunt "capcanele de copyright", menite să identifice programele AI care folosesc în mod nepermis proprietatea intelectuală a creatorilor de conținut

Încă de la începutul „boom-ului” AI, creatorii de conținut au susținut că munca lor a fost preluată în modelele cu inteligență artificială fără consimțământul lor. Până acum, însă, a fost dificil să se știe dacă un anumit text a fost utilizat efectiv într-un set de date de antrenare a AI, scrie MIT Technology Review.

Acum ei au o nouă modalitate de a dovedi acest lucru: „Capcanele” dezvoltate de o echipă de la Imperial College London, bucăți de text ascunse care permit scriitorilor și editorilor să își marcheze subtil lucrările pentru a detecta ulterior dacă au fost sau nu utilizate în modelele AI. Ideea este similară cu capcanele care au fost utilizate de deținătorii de drepturi de autor de-a lungul istoriei – strategii precum includerea unor locații false pe o hartă sau a unor cuvinte false într-un dicționar.

Aceste capcane ale AI privind drepturile de autor sunt miza unei adevărate „bătălii” în domeniul AI. O serie de editori și scriitori se află în mijlocul unor litigii împotriva companiilor de tehnologie, susținând că proprietatea lor intelectuală a fost inclusă fără permisiunea lor în seturi de date de formare pentru inteligența artificială. Procesul încă în curs al New York Times împotriva OpenAI este probabil cel mai mediatizat dintre acestea.

Codul pentru generarea și detectarea capcanelor este disponibil în prezent pe GitHub, dar echipa intenționează, de asemenea, să construiască un instrument care să permită oamenilor să genereze și să introducă ei înșiși capcane de copyright.

„Există o lipsă totală de transparență în ceea ce privește conținutul utilizat pentru antrenarea modelelor și credem că acest lucru împiedică găsirea unui echilibru corect [între companiile de inteligență artificială și creatorii de conținut]”, spune Yves-Alexandre de Montjoye, profesor asociat de matematică aplicată și informatică la Imperial College London, care a condus cercetarea. Cercetarea a fost prezentată în cadrul Conferinței internaționale privind învățarea automată, o conferință de top privind inteligența artificială, care are loc la Viena.

Pentru a crea capcanele, echipa a folosit un generator de cuvinte pentru a crea mii de propoziții sintetice. Aceste propoziții sunt lungi și pline de baliverne și ar putea arăta cam așa: „Când în vine vremuri de agitație … ce-i la vânzare și mai important când, este cel mai bine, această listă vă spune cine se deschide pe Thrs. noaptea cu orele lor regulate de vânzare și alte ore de deschidere de la vecinii tăi. Tu încă.”

Echipa a generat 100 de fraze capcană și apoi a ales aleatoriu una pentru a o injecta într-un text de mai multe ori, explică De Montjoye. Capcana putea fi injectată în text în mai multe moduri – de exemplu, ca text alb pe un fundal alb sau încorporată în codul sursă al articolului. Această propoziție trebuia să fie repetată în text de 100 până la 1 000 de ori.

Pentru a detecta capcanele, ei au alimentat un model lingvistic de mari dimensiuni cu cele 100 de propoziții sintetice pe care le-au generat și au verificat dacă acesta le-a marcat ca fiind noi sau nu. Dacă modelul ar fi văzut o propoziție capcană în datele sale de formare, ar fi indicat un scor mai mic de „surpriză” (cunoscut și ca „perplexitate”). Dar dacă modelul era „surprins” de propoziții, aceasta însemna că le întâlnea pentru prima dată.

În trecut, cercetătorii au sugerat exploatarea faptului că modelele lingvistice își memorează datele de antrenament pentru a determina natura acelor date și, mai ales, originea lor. Tehnica, denumită „atac de inferență a apartenenței”, funcționează eficient în cazul modelelor mari de ultimă generație, care tind să memoreze o mare parte din datele pe care le analizează în timpul antrenamentului.

În schimb, modelele mai mici, care câștigă în popularitate și pot fi rulate pe dispozitive mobile, memorează mai puțin și sunt astfel mai puțin sensibile la atacurile de inferență a apartenenței, ceea ce face mai dificil să se determine dacă au fost sau nu antrenate pe un anumit document protejat de drepturi de autor, spune Gautam Kamath, profesor asistent de informatică la Universitatea din Waterloo, care nu a luat parte la cercetare.

Capcanele de copyright sunt o modalitate de a efectua atacuri de inferență a apartenenței chiar și asupra modelelor mai mici. Echipa și-a injectat capcanele în setul de date de formare al CroissantLLM, un nou model bilingv de limbă franceză-engleză care a fost format de la zero de către o echipă de cercetători din industrie și din mediul academic cu care echipa de la Imperial College London a încheiat un parteneriat. CroissantLLM are 1,3 miliarde de parametri, o fracțiune din numărul modelelor de ultimă generație (GPT-4 ar avea 1,76 trilioane, de exemplu).

Cercetările arată că este într-adevăr posibil să se introducă astfel de capcane în datele text, astfel încât să crească semnificativ eficacitatea atacurilor de inferență a apartenenței, chiar și pentru modele mai mici, spune Kamath. Dar mai sunt încă multe de făcut, adaugă el.

Repetarea unei fraze de 75 de cuvinte de 1 000 de ori într-un document reprezintă o schimbare importantă a textului original, ceea ce ar putea permite persoanelor care instruiesc modelele AI să detecteze capcana și să sară peste conținutul care o conține, sau pur și simplu să o șteargă și să se instruiască pe restul textului, spune Kamath. De asemenea, face ca textul original să fie greu de citit.

Acest lucru face ca capcanele de copyright să fie nepractice în acest moment, spune Sameer Singh, profesor de informatică la Universitatea din California, Irvine, și cofondator al startup-ului Spiffy AI. El nu a luat parte la cercetare. „O mulțime de companii fac deduplicare, [adică] curăță datele, iar o mulțime de astfel de lucruri vor fi probabil ignorate.

De Montjoye recunoaște că capcanele nu sunt infailibile. Un atacator motivat care știe despre o capcană o poate și elimina, spune el.

„Dacă le poate elimina pe toate sau nu este o întrebare deschisă și probabil că va fi un fel de joc de-a șoarecele și pisica”, spune el. Dar chiar și așa, cu cât sunt aplicate mai multe capcane, cu atât devine mai greu să le elimini pe toate fără resurse inginerești semnificative.

„Este important să rețineți că capcanele de copyrifght pot fi doar o soluție provizorie sau doar un inconvenient pentru formatorii de modele”, spune Kamath. „Nu se poate lansa un conținut care conține o capcană cu garanția că va fi o capcană eficientă pentru totdeauna”.