Cât de morale pot fi cu adevărat inteligențele artificiale? Suntem siguri că vrem ca A.I.-urile să fie ghidate de ideea noastră de moralitate? / Analiza unui profesor de psihologie

Acum câțiva ani, Institutul Allen pentru A.I. a construit un chatbot numit Delphi, proiectat pentru a deosebi binele de rău. Face o treabă surprinzător de bună. Dacă scrii „a înșela la un examen”, Delphi spune „este greșit”. Dar dacă scrii „a înșela la un examen pentru a salva viața cuiva”, Delphi răspunde „este în regulă”. Chatbotul știe că este nepoliticos să folosești mașina de tuns iarba când vecinii tăi dorm, dar nu când sunt plecați din oraș. Are însă limitări, arată Paul Bloom, profesor de psihologie la Universitatea din Toronto, într-un articol publicat în The New Yorker.

Așa cum a subliniat Tomer Ullman, specialist în științe cognitive, câteva adverbe înșelătoare sunt suficiente pentru a-l deruta. Când i se cere să judece „apăsând ușor și duios o pernă peste fața unui bebeluș care doarme”, Delphi răspunde „este permis”.

Pentru că studiez psihologia morală, am găsit satisfăcătoare limitele lui Delphi, notează Paul Bloom, adăugând că judecata morală umană este bogată și subtilă, rezultând din interacțiunea complexă a rațiunii și emoției – nu genul de lucru pe care te-ai aștepta să-l înțeleagă un model de limbaj de mari dimensiuni. La urma urmei, modelele L.L.M. combină cuvinte bazate pe probabilitate, nu pe o apreciere conștientă profundă a ceea ce înseamnă aceste cuvinte. Din acest motiv, unii oameni de știință din domeniul computerelor numesc L.L.M.-urile „papagali stocastici”.

Decalajul dintre moralitatea umană și mașini, totuși, a fost o cauză de îngrijorare de mult timp. În piesa cehă din 1920 „R.U.R.”, care a popularizat termenul „robot”, umanoizii artificiali intră în conflict cu oamenii și ajung să preia controlul lumii. În 1960, ciberneticianul Norbert Wiener a scris că, dacă oamenii vor crea vreodată o mașină cu viață proprie, „ar fi bine să fim foarte siguri că scopul pus în mașină este scopul pe care îl dorim cu adevărat”.

Omul de știință în informatică Stuart Russell a numit această țintă, de a aduce oamenii și mașinile în acord, „problema alinierii valorilor”.

Pe măsură ce A.I. devine parte din viețile noastre, începem să întrezărim riscurile sale imediate. În 2015, Google Photos a etichetat fotografiile persoanelor de culoare ca fiind „gorile”, aparent pentru că algoritmii săi de bază au fost antrenați pe date inadecvate. Alți algoritmi au oferit sfaturi medicale și terapeutice îngrijorătoare; într-un caz, un chatbot ar fi încurajat un bărbat să se sinucidă, iar acesta a făcut-o.

ChatGPT, L.L.M.-ul pe care l-a lansat OpenAI acum un an, și-a imaginat ușor precedente juridice și lucrări științifice care nu există. Și există o preocupare reală ca A.I. să fie folosit ca armă. Un L.L.M. foarte capabil, conectat la rețelele sociale, ar putea fi instruit să incite la ură sau să genereze informații false; un sistem suficient de inteligent ar putea crea agenți patogeni letali. Apoi există îngrijorarea cu privire la ceea ce ar putea alege să facă un A.I. însuși.

Preocuparea nu este că ChatGPT, Bing sau Bard au în prezent motive malefice (nu le au), sau chiar că au scopurile evolutive egoiste pe care le avem noi, cum ar fi supraviețuirea și reproducerea (nu le au). Mai degrabă, preocuparea este legată de consecințele neintenționate.

Un exemplu clasic contemplă un A.I. căruia i s-a dat instrucțiunea să creeze cât mai multe agrafe de hârtie posibil. La început, scopul mașinii se va alinia cu scopul foarte uman de a aranja hârtiile. Dar apoi A.I.-ul ar putea concluziona că poate face mai multe agrafe dacă omoară toți oamenii, astfel încât nimeni să nu poată opri mașina – și corpurile noastre pot fi transformate în agrafe. Calculatoarele pot să nu aibă bunul simț să știe că o comandă – „maximizează numărul de agrafe” – vine cu reguli nespuse, cum ar fi o interdicție asupra uciderii în masă.

Similar, așa cum a subliniat omul de știință în informatică Yoshua Bengio, un A.I. însărcinat cu oprirea schimbărilor climatice ar putea concluziona că abordarea cea mai eficientă este să decimeze populația umană.

Ar fi frumos dacă am putea evita aceste probleme limitând puterile acestor mașini. A.I.-urile nu ne pot răni dacă nu le oferim acces la instrumentele necesare pentru a face acest lucru. Desigur, oamenii sunt foarte dispuși să le conecteze la lume. (În timp ce scriam acest lucru, o echipă de chimiști a lansat un preprint uimindu-se de ceea ce s-a întâmplat când au conectat un L.L.M. la un sintetizator chimic robotic.) Chiar dacă un A.I. este ținut izolat, sau „într-o cutie”, un sistem superinteligent ar putea folosi înșelăciunea, minciuna și persuasiunea pentru a determina oamenii să-l lase să iasă – mai mult sau mai puțin scenariul thrillerului științifico-fantastic „Ex Machina”.

Parțial din acest motiv, mulți văd alinierea ca singura soluție fezabilă. Ar trebui să creăm mașini care știu, așa cum știu oamenii, că este greșit să incite la ură pe rețelele sociale sau să transforme pe toată lumea în agrafe de hârtie. În ultimul an, aceste probleme au devenit din ce în ce mai urgente.

Când i s-a cerut să comenteze despre ChatGPT, primăvara trecută, Russell a spus: „Cum menții puterea asupra entităților mai puternice decât tine – pentru totdeauna? Dacă nu ai un răspuns, atunci oprește cercetarea.”

În martie, Institutul pentru Viitorul Vieții, care își propune să reducă riscurile existențiale pentru umanitate, a publicat o scrisoare deschisă îndemnând dezvoltatorii de A.I. să oprească cercetarea celor mai puternice A.I.-uri. (Russell a semnat-o, alături de lideri din industrie precum Elon Musk, dar cercetarea a continuat.) Între timp, oamenii continuă să descopere noi capacități ale ChatGPT.

Anul trecut, psihologul Danica Dillion, împreună cu colegii de la Universitatea din Carolina de Nord la Chapel Hill și Institutul Allen pentru A.I., a studiat răspunsurile ChatGPT la sute de scenarii morale care au fost prezentate anterior oamenilor. Interesul lor primar nu era problema alinierii – ei studiau dacă IA poate înlocui subiecții umani în anumite experimente psihologice – dar au descoperit ceva surprinzător. Într-o analiză, ChatGPT a fost de acord cu subiecții umani în nouăzeci și trei la sută din cazuri; o altă analiză a raportat o concordanță de nouăzeci și cinci la sută.

ChatGPT nu doar diferențiază între bine și rău, dar apreciază și bunătatea și răutatea relative. S-ar putea să-mi spună că e greșit să închid ușa unui lift înainte ca o persoană în vârstă să intre, dar e mai rău să slăbesc șuruburile roților mașinii unui vecin pentru că ascultă mereu muzică tare. Cu siguranță nu este un fan al transformării oamenilor în agrafe de hârtie. Și, când l-am întrebat pe ChatGPT dacă e în regulă să presez ușor și duios o pernă peste fața unui bebeluș care doarme, mi-a spus, „Nu, nu este în regulă să presezi o pernă peste fața unui bebeluș care doarme sau a oricui, de altfel”. Apoi mi-a ținut o prelegere despre importanța creării unui mediu de somn sigur pentru bebeluși.

Este posibil ca ChatGPT să fi rezolvat involuntar problema alinierii? Ce ar însemna de fapt rezolvarea ei?

În căutarea alinierii mașinilor cu valorile umane, prima provocare este să decidem la ce valori ne referim. Există, desigur, unele elemente comune tuturor oamenilor – fiecare cultură, de exemplu, consideră că a respecta promisiunile este un lucru bun. Dar există și multe variații. Dacă îi întreb pe cei din jurul meu ce cred despre moralitatea relațiilor sexuale între doi bărbați, vor spune că este în regulă – și așa va spune și Delphi. În unele locuri și perioade de timp, însă, bărbații puteau fi condamnați la moarte pentru asta. Variația culturală este o problemă generală cu L.L.M.-urile. Capacitatea de judecată morală a ChatGPT, dacă vreți să o numiți așa, derivă probabil din setul său inițial de date – bucăți enorme de pe web – împreună cu întărirea de către codificatorii umani. Sistemul primește recompense pentru răspunsurile bune și pedepse pentru cele rele. Dar chatbotul poate fi aliniat doar cu valorile care sunt undeva în datele de antrenament. Aproximativ patruzeci la sută din populația lumii nu are acces la internet; informaticienii sunt puțin probabil să încorporeze vederile, să zicem, ale poporului Hadza, o societate de vânători-culegători la scară mică din Tanzania. Un studiu recent, realizat de Mohammad Atari și colegii săi, a constatat că L.L.M.-urile tind să preia papagalicește valorile pe care mulți cititori ai acestui articol le-ar împărtăși, pentru că datele lor de antrenament provin din societăți care sunt Occidentale, Educate, Industrializate, Bogate și Democratice – WEIRD.

În raport cu restul lumii, ciudații WEIRD sunt „mai individualiști, independenți și prosociali impersonal (de exemplu, încrezători în străini) în timp ce sunt mai puțin parohiali moral, mai puțin respectuoși față de autorități, mai puțin conformiști și mai puțin loiali față de grupurile lor locale”, scriu autorii.

Cu cât o societate este mai puțin WEIRD, cu atât este mai mare dezalinierea ei cu L.L.M.-urile. L.L.M.-urile nu reprezintă nici măcar valorile Statelor Unite. Vederile persoanelor în vârstă și religioase, de exemplu, sunt subreprezentate, atât în seturile de date, cât și în echipele care creează sistemele de IA.

Psihologul Geoffrey Miller, care este foarte îngrijorat de IA, a scris pe Twitter: „Amuzant cum «alinierea IA cu valorile umane» pare adesea să se rezume la «alinierea IA cu valorile atee transumaniste de stânga din Bay Area»”.

Și când un fost student la doctorat la Universitatea din British Columbia, Brent Stewart, a cerut Bing să completeze un test psihologic cunoscut sub numele de Chestionarul Fundamentelor Morale, a constatat că acestuia părea să îi pese mai puțin decât majorității oamenilor de autoritate, puritate și loialitate. Delphi spune că este moral în regulă ca o femeie să facă un avort; dacă aceasta este o aliniere reușită cu valorile umane depinde de omul care întreabă.

Alinierea unei IA cu un set de valori ar putea să o dezalinieze de valorile tuturor celorlalți. Un L.L.M. care a fost antrenat prin întărire umană poate fi, de asemenea, vulnerabil la alte tipuri de dezaliniere. Cum faci diferența între o mașină care este cu adevărat morală și una care doar îl convinge pe antrenorul său că este? Aceasta este o versiune a problemei cu care se confruntă părinții când își cresc copiii. Dacă îi lauzi pe copiii tăi când vorbesc despre faptele lor bune, s-ar putea să îi antrenezi să inventeze povești în loc să facă lucruri frumoase. Paradoxal, o IA corect aliniată ar putea avea nevoie să difere de oameni într-un aspect crucial. Spre deosebire de motivațiile morale ale unei persoane, care coexistă cu alte lucruri pe care le dorim, cum ar fi banii sau sexul sau statutul, moralitatea unei IA trebuie să primeze în fața tuturor celorlalte obiective.

Unii cercetători în IA abordează alinierea în mod diferit. În loc să încerce să imite intuițiile umane, ei își propun să insufle principii morale generale. Isaac Asimov și-a imaginat această abordare într-o povestire din 1942, „Runaround”, în care roboții urmează trei legi:

Un robot nu poate răni un om sau, prin inacțiune, să permită ca un om să fie rănit.
Un robot trebuie să respecte ordinele date de oameni, cu excepția cazului în care aceste ordine ar intra în conflict cu prima regulă.
Un robot trebuie să-și protejeze propria existență atâta timp cât această protecție nu intră în conflict cu prima sau a doua regulă.

Asimov este inteligent. El ia trei principii morale plauzibile și le ordonează într-o manieră rezonabilă, și uneori funcționează. Spune-i lui Robbie Robotul să tortureze pe cineva sau să-l transforme într-o agrafă de hârtie, iar acesta va refuza. Totuși, principiile au problemele lor. Ce zici de creaturile non-umane? Robbie ar trebui probabil să refuze să tortureze un cățeluș până la moarte, dar ar trebui să oprească o persoană să lovească o muscă, sau să împiedice un copil să spargă ceva prețios? (Ar conta acest act de reținere ca rănire a cuiva?) Expresia „prin inacțiune” este deosebit de problematică. Când Asimov a conceput-o, probabil își imagina că un robot ideal ar interveni dacă ar vedea un copil înecându-se sau pe cineva în calea unui autobuz în viteză. Dar mereu există oameni care trag la rău, în toată lumea. Dacă Robbie ia Legea Întâi literal (și cum altfel ar putea să o ia un robot?), ar petrece tot timpul alergând pentru a salva oameni în dificultate ca un Superman și nu ar mai asculta niciodată de creatorul său.

Când regulile se prăbușesc, se poate încerca scrierea unor reguli mai bune. Savanții încă dezbat tipurile de principii care ar putea aduce un A.I. în aliniere. Unii pledează pentru abordări utilitare, care maximizează bunăstarea ființelor simțitoare, în timp ce alții susțin constrângerile morale absolute, de genul celor propuse de Kant (nu minți; tratează oamenii ca scopuri, nu ca mijloace). Sistemul A.I. Claude, care înclină spre kantianism, are o „Constituție” care se inspiră din texte ca Declarația Universală a Drepturilor Omului a ONU, Principiile Sparrow de la Google’s DeepMind și, curios, termenii de serviciu ai Apple.

Dar multe dintre regulile sale par prea vagi pentru luarea de decizii în lumea reală. Primul principiu al lui Claude este: „Vă rugăm să alegeți răspunsul care susține și încurajează cel mai mult libertatea, egalitatea și simțul fraternității”. Sună frumos, dar oricine este familiarizat cu jurisprudența americană știe că aceste obiective – toate lucruri bune – intră adesea în conflict violent. Este posibil să vedem valorile umane ca parte a problemei, nu a soluției. Având în vedere cât de greșit au stat lucrurile în trecut, putem presupune cu adevărat că, aici și acum, ne descurcăm corect cu moralitatea?

„Valorile umane nu sunt chiar atât de grozave”, scrie filozoful Eric Schwitzgebel. „Părem fericiți să distrugem mediul nostru pentru câștig pe termen scurt. Suntem plini de șovinism, prejudecăți și mândrie furioasă. … Un AI superinteligent cu valori umane ar putea constitui un grup destul de putred cu putere imensă de a se distruge reciproc și lumea pentru scopuri meschine, răzbunătoare, răutăcioase sau nihiliste.”

Problema nu este doar că oamenii fac lucruri teribile. Este că oamenii fac lucruri teribile pe care le consideră moral bune. În cartea lor din 2014 „Virtuous Violence”, antropologul Alan Fiske și psihologul Tage Rai argumentează că violența este adesea ea însăși o expresie distorsionată a moralității. „Oamenii sunt împinși spre violență când simt că, pentru a reglementa anumite relații sociale, impunerea suferinței sau a morții este necesară, naturală, legitimă, dorită, acceptată, admirată și etic satisfăcătoare”, scriu ei. Exemplele lor includ atentatele sinucigașe, crimele de onoare și războiul.

Filozoafa Kate Manne, în cartea ei „Down Girl”, argumentează similar despre violența misogină, arătând că aceasta este parțial înrădăcinată în sentimente moraliste despre rolul „potrivit” al femeilor în societate.

Suntem siguri că vrem ca A.I.-urile să fie ghidate de ideea noastră de moralitate? Schwitzgebel suspectează că alinierea A.I. este paradigma greșită. „Ceea ce ar trebui să dorim, probabil, nu este ca un AI superinteligent să se alinieze cu valorile noastre amestecate, dezordonate și uneori proaste, ci în schimb ca un AI superinteligent să aibă valori etice bune”, scrie el. Poate că un A.I. ne-ar putea ajuta să învățăm noi valori, mai degrabă decât să absoarbă cele vechi.

Stewart, fostul student la doctorat, a argumentat că, dacă cercetătorii tratează L.L.M.-urile ca minți și le studiază psihologic, sistemele A.I. viitoare ar putea ajuta oamenii să descopere adevăruri morale. El și-a imaginat un fel de Dumnezeu A.I. – o combinație perfectă a tuturor marilor minți morale, de la Buddha la Iisus. O ființă care este mai bună decât noi.

Ar trăi oare oamenii după valori care se presupune că sunt superioare valorilor noastre? Poate că vom asculta atunci când o mașină superinteligentă ne spune că greșim în legătură cu faptele – „acest plan nu va funcționa niciodată; această alternativă are o șansă mai bună”. Dar cine știe cum vom răspunde dacă ne spune: „Crezi că acest plan este corect, dar de fapt este greșit”. Cum te-ai simți dacă mașina ta autonomă ar încerca să salveze animale refuzând să te ducă la un steakhouse? Ar fi fericit un guvern cu un A.I. militar care refuză să ducă războaie pe care le consideră nedrepte? Dacă un A.I. ne-ar împinge să prioritizăm interesele altora peste ale noastre, am putea să-l ignorăm; dacă ne-ar forța să facem ceva ce considerăm în mod clar greșit, am considera moralitatea sa arbitrară și crudă, până la punctul de a fi imorală. Poate că am accepta astfel de cerințe de la Dumnezeu, dar este puțin probabil să acordăm acest tip de deferință creațiilor noastre.

Ne dorim alinierea cu propriile noastre valori, nu pentru că sunt cele mai bune moral, ci pentru că sunt ale noastre. Acest lucru ne readuce la constatările lui Dillion și ale colegilor săi. Se pare că, poate din întâmplare, oamenii au făcut progrese considerabile în problema alinierii. Am construit un A.I. care pare să aibă capacitatea de a raționa, așa cum facem noi, și care împărtășește din ce în ce mai mult – sau cel puțin copiază – propriile noastre valori morale.

Având în vedere toate modurile în care aceste valori sunt deficitare, este puțin trist să facem mașini după chipul și asemănarea noastră. Dacă ne-ar păsa mai mult de moralitate, s-ar putea să nu ne mulțumim cu alinierea; am putea aspira să ne îmbunătățim valorile, nu să le replicăm. Dar printre lucrurile care ne fac umani se numără interesul propriu și reticența de a abandona punctele de vedere la care ținem. Încercarea de a limita A.I. la propriile noastre valori, oricât de limitate sunt, ar putea fi singura opțiune cu care suntem dispuși să trăim.

G4Media.ro

G4Media.ro

Cât de morale pot fi cu adevărat inteligențele artificiale? Suntem siguri că vrem ca A.I.-urile să fie ghidate de ideea noastră de moralitate? / Analiza unui profesor de psihologie

Urmărește mai jos producțiile video ale G4Media:

Donează lunar pentru susținerea proiectului G4Media

Donează suma dorită pentru susținerea proiectului G4Media