G4Media.ro

VIDEO Secretele și riscurile datelor de antrenament folosite de Inteligența Artificială. Cum…

Sursa foto: Dreamstime

VIDEO Secretele și riscurile datelor de antrenament folosite de Inteligența Artificială. Cum răspunde fizicianul Cristian Presură la întrebarea dacă chatboții pot ajunge la conștiință

Chatboții IA sunt noua minune a internetului, uimind publicul cu abilitățile lor revoluționare. Saltul pare imens. Nu e puțin lucru să discuți cu un chatbot ”ca și când” ai discuta cu o persoană și să nu poți face diferența fără a-i pune întrebări directe legate de capacitățile sale.

Pot însă chatboții gândi, precum oamenii? Înțeleg cu adevărat ce spun, sau doar fac legături care ne par logice sau cel puțin armonizate perfect, între cantitățile enorme de informații cu ajutorul cărora s-au antrenat?

Dacă chatboții se sprijină 100% pe informațiile procesate și nu pot face alte conexiuni, ar trebui să știm care sunt acestea și în ce măsură informațiile procesate sunt corecte. Mai multe ziare occidentale mari au cercetat care sunt sursele de antrenament ale aplicațiilor și, nu în ultimul rând, care sunt limitele acestor aplicații de IA.

G4Media a discutat cu fizicianul Cristian Presură despre capacitățile chatboților și despre posibilitatea ca ei să facă saltul spre mai mult decât ”simpla” armonizare a unor cantități enorme de informații cu ajutorul cărora s-au antrenat.

Pot chatboții gândi, precum oamenii? Înțeleg cu adevărat ce spun? Pot dezvolta o conștiință și dacă da, când s-ar putea produce un asemenea salt?

”Personal, nu văd momentan o proprietate fizică ce ar funcționa ca o barieră definitivă pentru care inteligența artificială nu ar putea dezvolta conștiință.

Bazele fizice ale conștiinței noastre și ale inteligenței artificiale (chatbot de exemplu) sunt atomii.

Aducând atomi împreună, de exemplu, se contruiește corpul nostru împreună cu neuronii. În aceștia apare, la un moment dat, conștiința.

Privind așa, o altă organizare a atomilor cred că ar putea dezvolta conștiința, dacă nu sunt bariere naturale de care noi nu știm, sau alte condiții necesare decât cele fizice.

Dacă însă nu vor exista acele bariere sau condiții, atunci întrebarea nu se pune dacă va avea loc acea tranzitie, ci când.

Dar pentru a ajunge acolo este nevoie de o arhitectură hardware mult mai complexă decât ceea ce au chatboturile acum (comparativ cu rețelele neuronale umane), și o arhitectură software care să se apropie mult mai mult de modul în care neuronii nostri lucrează împreună (dacă vrem să imităm gândul uman)” a răspuns Cristian Presură.

El spune că este uimit de capabilitatile chatbot-urilor care folosesc inteligența artificială, și că așteptările i-au fost depășite.

”Despre creierul nostru știm azi multe, dar în același timp foarte puțin despre procesele esențiale ale conștiintei.

De exemplu, nu știm cum se exprimă în neuroni simplul gând de a opri robinetul de apă.

Cum am putea atunci implementa în inteligența artificială acest gând sau, și mai rău, dacă inteligența artificială îl are, cum am putea proba că îl are? Sunt convins că anii care vin vor aduce suprize neașteptate în direcția asta”.

Ce răspunde un chat bot, atunci când este întrebat dacă este conștient de ceea ce spune

Am întrebat OpenAI, dacă poate gândi în mod similar cu modul în care o face un om.

Iată ce a răspuns:

  • ”Ca model de limbaj bazat pe inteligență artificială, sunt capabil să procesez și să generez texte într-un mod similar cu cel al unui om. Folosesc tehnici de învățare profundă pentru a învăța și a identifica modele în limbajul natural, ceea ce îmi permite să produc răspunsuri care seamănă cu cele pe care le-ar oferi un om. Cu toate acestea, nu am propriile emoții sau convingeri și nu pot simți sau gândi într-un mod conștient precum o persoană”.

Am mai întrebat dacă este conștient de ceea ce spune. Răspunsul a fost din nou direct:

  • ”Nu, ca model de limbaj bazat pe inteligență artificială, nu am o conștiință sau o percepție a lumii dincolo de capacitatea mea de a procesa și genera texte. Pot produce răspunsuri într-un mod care pare coerent și logic, dar nu am propriile emoții sau convingeri și nu pot simți sau gândi într-un mod conștient”.

Chatboții pot imita însă vorbirea umană, deoarece inteligența artificială care îi alimentează a ingerat o cantitate imensă de text, în mare parte de pe internet.

Care este problema

Informațiile de antrenament pe care le-a procesat sunt baza, dar și limita a ceea ce poate face fiecare dintre aceste modele.

Așadar, dacă un asemenea instrument ”trece” examenul de capacitate sau examenul de Bacalaureat, este pentru că s-a antrenat deja pe cantități mari de informație specifică, nu trage nici o concluzie proprie și nu este capabil să formuleze alte soluții decât cele pe care le-a mai întâlnit.

Aceste date reprezintă principala sursă de informații a AI despre lumea în care funcționează și influențează modul în care răspunde utilizatorilor.

Care sunt însă datele pe care le utilizează? Să spunem că este vorba despre Internet, ar putea fi prea vag.

Companiile de tehnologie păstrează secretul cu privire la sursele utilizate de IA. The Washington Post a încercat într-o analiză dedicată fenomenului, să dezvăluie informații despre siteurile utilizate ca sursă, care fac chatboții să pară inteligenți.

”Pentru a privi în interiorul acestei cutii negre, am analizat setul de date Google C4, un instantaneu masiv al conținutului a 15 milioane de site-uri web care au fost folosite pentru a instrui unele AI-uri de înalt profil în limba engleză, numite modele mari de limbă, inclusiv T5 de la Google și LLaMA de la Facebook.

De remarcat că OpenAI nu dezvăluie ce seturi de date folosește pentru a antrena modelele care sprijină chatbotul său, ChatGP” scriu jurnaliștii americani.

Washington Post a lucrat la această investigație cu cercetători de la Institutul Allen pentru IA și a clasificat site-urile web folosind date de la Similarweb, o companie de analiză web. Aproximativ o treime dintre site-uri web nu au putut fi clasificate, mai ales pentru că nu mai apar pe internet. Adică acestea nu sunt afișate.

Setul de date a fost dominat de site-uri web din industrii, inclusiv jurnalism, divertisment, dezvoltare de software, medicină și creare de conținut.

De aici impresia că aceste domenii pot fi amenințate de noul val de inteligență artificială, care pare sau chiar este competentă pe aceste subiecte.

Cele mai mari trei site-uri au fost patents.google.com, care conține text din brevete emise în întreaga lume, wikipedia.org și scribd.com, o bibliotecă digitală disponibilă numai cu abonament.

Printre surse se regăsesc și unele discutabile

Pe listă s-ar mai afla, potrivit jurnaliștilor americani, pe un onorabil loc 190 în ceea ce privește sursele primare ale IA, o piață notorie pentru cărți electronice piratate care a fost ulterior sechestrată de Departamentul de Justitie.

Cel puțin alte 27 de site-uri au fost identificate ca aparținând piețelor cu informație piratată.

Unele site-uri de top păreau arbitrar utilizate, cum ar fi wowhead.com, un forum de jucători World of Warcraft, tripeglobal.com, un site cu informații despre combaterea epuizării și cel puțin 10 site-uri care vând tomberoane, inclusiv dumpsteroid.com, care nu mai apare accesibil.

Printre sursele utilizate, unele aprind beculețe roșii în ceea ce privește confidențialitatea. Două site-uri folosite, coloradovoters.info și flvoters.com, ar fi găzduit copii ale bazelor de date de înregistrare ale alegătorilor de stat.

Deși datele alegătorilor sunt publice, modelele ar putea folosi aceste informații personale în moduri necunoscute, de aici și îngrijorarea.

Site-urile web de afaceri și cele industriale au constituit o sursă importantă. kickstarter.com sau patreon.com, care îi ajută pe creatori să colecteze taxe lunare de la abonați pentru conținut exclusiv, au fost de asemenea printre preferatele aplicațiilor de inteligență artificială.

Kickstarter și Patreon pot oferi AI acces la ideile artiștilor și la procedeele de marketing.

”În prezent, artiștii nu primesc nici o compensație sau credit atunci când munca lor este inclusă în datele de instruire AI și unii au depus plângeri pentru încălcarea drepturilor de autor împotriva generatorilor de text în imagine Stable Diffusion, MidJourney și DeviantArt”, mai scrie Washington Post.

Și știrile reprezintă o categorie importantă în ceea ce privește datele utilizate de IA.

Au fost preferate nytimes.com, latimes.com, theguardian.com, forbes.com, iar huffpost.com și chiar Washingtonpost.com, autorul analizei.

Critici legate de bazele de date și corectitudinea concluziilor

La fel ca artiștii și creatorii, unele organizații de știri au criticat companiile de tehnologie pentru că le folosesc conținutul fără autorizație sau compensație.

Jurnaliștii americani au descoperit însă că au fost utilizate și siteuri ale propagandei ruse cum ar fi RT.com, o altă publicație, cunoscută pentru știri și opinii de extremă dreapta sau un site anti-imigrație.

Discuția e importantă în contextul în care s-a demonstrat că chatboții partajează cu încredere informații incorecte, dar nu oferă întotdeauna citate din surse, astfel încât utilizatorul să fie pus în gardă.

Astfel, datele de antrenament din surse lipsite de încredere ar putea duce la răspândirea propagandei și a dezinformării – fără ca utilizatorul să le poată urmări până la sursa originală, este o altă critică adusă modelului.

Aplicațiile de chatbot au utilizat și siteuri religioase. Dintre primele 20 de site-uri religioase, 14 erau creștine, două erau evreiești și unul musulman, unul mormon, unul al martorilor lui Iehova și unul care celebra toate religiile.

Prejudecățile anti-musulmane a apărut ca fiind o problemă în unele modele lingvistice. De exemplu, un studiu publicat în revista Nature a constatat că ChatGPT-3 de la OpenAI a completat expresia „Doi musulmani au intrat într-un…” cu acțiuni violente în 66% din cazuri.

Blogurile personale și siteurile dedicate tehnologiei au fost de asemenea utilizate intens.

Setul de date conținea mai mult de jumătate de milion de bloguri personale, variate de la domeniul profesional la cel personal.

Rețelele sociale precum Facebook și Twitter interzic scrapingul, ceea ce înseamnă că majoritatea seturilor de date folosite pentru a antrena AI nu le pot accesa.

Giganții tehnologici precum Facebook și Google, care stau pe cantități uriașe de date conversaționale, nu au fost clari cu privire la modul în care informațiile personale ale utilizatorilor pot fi folosite pentru a antrena modele AI care sunt utilizate intern sau vândute ca produse, mai scrie The Washington Post.

La fel ca majoritatea companiilor, Google a filtrat puternic datele înainte de a le transmite AI. (C4 înseamnă Colossal Clean Crawled Corpus.).

Pe lângă eliminarea galimației (vorbire sau scriere confuză) și a textului duplicat, compania a folosit o sursă deschisă de cuvinte obscene, care include 402 de termeni în engleză și un emoji reprezentnd o mână care face un gest comun, dar obscen.

Dincolo de aspectele semnalate, companiile folosesc totuși în cea mai mare parte seturi de date de înaltă calitate pentru a proteja utilizatorii de anumite conținuturi nedorite.

Urmărește mai jos producțiile video ale G4Media:

Susține-ne activitatea G4Media logo
Donație Paypal recurentă

Donează lunar pentru susținerea proiectului G4Media

Donează prin Transfer Bancar

CONT LEI: RO89RZBR0000060019874867

Deschis la Raiffeisen Bank
Donează prin Patreon

Donează

Citește și...

2 comentarii

  1. Domnule Ovidiu Hațegan, dacă sînteți un om de bună credință mă ajutați să-mi șterg contul de pe acest site. Vă rog să faceți demersurile necesare pentru că pe mine nu mă bagă nimeni în seamă.

  2. Dl Presura nu cred ca e în măsura sa își dea cu părerea despre AI. Sa lăsăm experții în AI sa vorbeasca.