G4Media.ro

Noul pas în dezvoltarea inteligenței artificiale: Ce sunt agenții AI și cum…

sursa foto: Unsplash/ Alex Knight

Noul pas în dezvoltarea inteligenței artificiale: Ce sunt agenții AI și cum îi vom folosi

Când ChatGPT a fost lansat pentru prima dată, toată lumea din domeniul AI vorbea despre noua generație de asistenți AI. Dar în ultimul an, acest entuziasm s-a îndreptat către o nouă țintă: agenții AI, scrie MIT Technology Review.

Agenții au ocupat un loc proeminent în cadrul conferinței anuale I/O a Google din luna mai, când compania a prezentat noul său agent AI numit Astra, care permite utilizatorilor să interacționeze cu acesta folosind mijloace audio și video. Noul model GPT-4o al OpenAI a fost, de asemenea, numit agent AI.

Și nu este vorba doar de publicitate, deși există cu siguranță și o parte din aceasta. Companiile tehnologice investesc sume uriașe în crearea agenților AI, iar eforturile lor de cercetare ar putea duce la apariția AI-ului util la care visăm de zeci de ani. Mulți experți, printre care și Sam Altman, spun că acestea sunt următorul „mare lucru”.

Dar ce sunt, de fapt, agenții AI? Și cum îi putem folosi?

Cum sunt ei definiți?

Cercetarea în domeniul agenților AI este încă la început, iar domeniul nu are o definiție definitivă pentru aceștia. Dar, pur și simplu, aceștia sunt modele și algoritmi AI care pot lua decizii în mod autonom într-o lume dinamică, spune Jim Fan, cercetător științific senior la Nvidia, care conduce inițiativa companiei privind agenții AI.

Marea viziune a agenților AI este un sistem care poate executa o gamă largă de sarcini, la fel ca un asistent uman. În viitor, ar putea să vă ajute să vă rezervați vacanța, dar își va aminti, de asemenea, dacă preferați hotelurile luxoase, astfel încât va sugera doar hoteluri care au patru stele sau mai mult și apoi va merge mai departe și va rezerva cel pe care îl alegeți din gama de opțiuni pe care vi le oferă. De asemenea, va sugera zborurile care se potrivesc cel mai bine cu calendarul dvs. și va planifica itinerariul călătoriei dvs. în funcție de preferințele dvs. Ar putea întocmi o listă cu lucrurile pe care trebuie să le împachetați pe baza acestui plan și a prognozei meteo. Ar putea chiar să trimită itinerariul dvs. oricărui prieten despre care știe că locuiește în apropiere de destinația dvs. și să îl invite. La locul de muncă, ar putea analiza lista dvs. de lucruri de făcut și ar putea executa sarcini din aceasta, cum ar fi trimiterea de invitații în calendar, memo-uri sau e-mailuri.

Una dintre viziunile agenților este ca aceștia să fie multimodali, ceea ce înseamnă că pot procesa limbaj, audio și video. De exemplu, în demonstrația Astra de la Google, utilizatorii ar putea îndrepta camera unui smartphone spre anumite lucruri și să pună întrebări agentului. Agentul ar putea răspunde la intrări text, audio și video.

Acești agenți ar putea, de asemenea, să faciliteze procesele pentru întreprinderi și organizații publice, spune David Barber, directorul Centrului pentru inteligență artificială al University College London. De exemplu, un agent AI ar putea funcționa ca un robot mai sofisticat de servicii pentru clienți. Generația actuală de asistenți bazați pe modele lingvistice poate genera doar următorul cuvânt probabil dintr-o propoziție. Dar un agent AI ar avea capacitatea de a acționa autonom pe baza comenzilor în limbaj natural și de a procesa sarcini de servicii pentru clienți fără supraveghere. De exemplu, agentul ar fi capabil să analizeze e-mailurile cu reclamații ale clienților și apoi să știe să verifice numărul de referință al clientului, să acceseze baze de date precum sistemele de gestionare a relațiilor cu clienții și de livrare pentru a vedea dacă reclamația este legitimă și să o proceseze în conformitate cu politicile companiei, spune Barber.

În linii mari, există două categorii diferite de agenți, spune Fan: agenții software și agenții corporali.

Agenții software rulează pe computere sau telefoane mobile și utilizează aplicații, la fel ca în exemplul agenției de turism de mai sus. „Acești agenți sunt foarte utili pentru munca de birou sau pentru trimiterea de e-mailuri sau pentru desfășurarea acestui lanț de evenimente”, spune el.

Agenții corporali sunt agenți care se află într-o lume 3D, cum ar fi un joc video, sau într-un robot. Aceste tipuri de agenți ar putea face jocurile video mai atractive, permițându-le oamenilor să joace cu NPCs (non-playable characters) controlate de AI. Acest tip de agenți ar putea contribui, de asemenea, la construirea unor roboți mai utili, care ne-ar putea ajuta cu sarcinile zilnice de acasă, cum ar fi împăturirea rufelor și gătitul meselor.

Fan a făcut parte dintr-o echipă care a construit un agent AI corporal numit MineDojo în popularul joc pe calculator Minecraft. Folosind un vast set de date colectate de pe internet, agentul AI al lui Fan a fost capabil să învețe noi abilități și sarcini care i-au permis să exploreze liber lumea virtuală 3D și să îndeplinească sarcini complexe, cum ar fi crearea de țarcuri pentru animale sau culegerea lavei într-o găleată. Jocurile video sunt substitute bune pentru lumea reală, deoarece solicită agenților să înțeleagă fizica, raționamentul și „common sense”.

Într-o nouă lucrare, care nu a fost încă revizuită de colegi, cercetătorii de la Princeton afirmă că agenții AI tind să aibă trei caracteristici diferite. Sistemele AI sunt considerate „agentice” dacă pot urmări obiective dificile fără a fi instruite în medii complexe. De asemenea, ele se califică dacă pot fi instruite în limbaj natural și pot acționa autonom fără supraveghere. În cele din urmă, termenul „agent” se poate aplica și sistemelor care sunt capabile să utilizeze instrumente, cum ar fi căutarea pe internet sau programarea, sau care sunt capabile să planifice.

Sunt ei un lucru nou?

Termenul „agenți AI” există de ani de zile și a însemnat lucruri diferite în momente diferite, spune Chirag Shah, profesor de informatică la Universitatea din Washington.

Au existat două valuri de agenți, spune Fan. Valul actual se datorează boom-ului modelelor lingvistice și creșterii unor sisteme precum ChatGPT.

Valul anterior a fost în 2016, când Google DeepMind a prezentat AlphaGo, sistemul său de inteligență artificială care poate juca – și câștiga – jocul Go. AlphaGo a fost capabil să ia decizii și să planifice strategii. Acest lucru s-a bazat pe învățarea prin consolidare, o tehnică care recompensează algoritmii AI pentru comportamente dezirabile.

„Dar acești agenți nu erau generali”, spune Oriol Vinyals, vicepreședinte de cercetare la Google DeepMind. Ei au fost creați pentru sarcini foarte specifice – în acest caz, să joace Go. Noua generație de inteligență artificială bazată pe modele fundamentale face ca agenții să fie mai universali, deoarece pot învăța din lumea cu care interacționează oamenii.

„Simțiți mult mai mult că modelul interacționează cu lumea și apoi vă oferă răspunsuri mai bune sau o asistență mai bună sau orice altceva”, spune Vinyals.

Care sunt limitările?

Există încă multe întrebări deschise la care trebuie să se răspundă. Kanjun Qiu, CEO și fondator al start-up-ului de inteligență artificială Imbue, care lucrează la agenți care pot raționa și codifica, compară starea agenților cu situația în care se aflau mașinile care se conduc singure în urmă cu puțin peste un deceniu.

Ele pot face lucruri, dar nu sunt fiabile și încă nu sunt cu adevărat autonome. De exemplu, un agent de codare poate genera cod, dar uneori greșește și nu știe cum să testeze codul pe care îl creează, spune Qiu. Așadar, oamenii trebuie încă să fie implicați activ în proces. Sistemele de inteligență artificială încă nu pot raționa pe deplin, ceea ce reprezintă un pas esențial în funcționarea într-o lume umană complexă și ambiguă.

„Nu suntem nici pe departe aproape de a avea un agent care să poată automatiza toate aceste treburi pentru noi”, spune Fan. Sistemele actuale „halucinează și, de asemenea, nu urmează întotdeauna instrucțiunile îndeaproape”, spune Fan. „Și asta devine enervant”.

O altă limitare este că, după un timp, agenții AI își pierd urma subiectelor la care lucrează. Sistemele AI sunt limitate de ferestrele lor de context, adică de cantitatea de date pe care le pot lua în considerare la un moment dat.

„ChatGPT poate face codare, dar nu este capabil să facă bine conținut de formă lungă. Dar pentru dezvoltatorii umani, ne uităm la un întreg depozit GitHub care are zeci, dacă nu sute de linii de cod, și nu avem nicio problemă în a-l naviga”, spune Fan.

Pentru a rezolva această problemă, Google a crescut capacitatea modelelor sale de a procesa date, ceea ce permite utilizatorilor să aibă interacțiuni mai lungi cu acestea, în care își amintesc mai multe despre interacțiunile anterioare. Compania a declarat că lucrează pentru ca ferestrele sale contextuale să devină infinite în viitor.

Pentru agenții încarnați, cum ar fi roboții, există și mai multe limitări. Nu există suficiente date de instruire pentru a-i învăța, iar cercetătorii abia încep să valorifice puterea modelelor de bază în robotică.

Așadar, în ciuda entuziasmului, merită să ținem cont de faptul că cercetarea în domeniul agenților inteligenți artificiali se află încă în stadii incipiente și probabil că va dura ani de zile până când vom putea experimenta întregul lor potențial.

Sună bine. Pot încerca un agent AI acum?

Într-un fel. Cel mai probabil ați încercat prototipurile lor timpurii, cum ar fi ChatGPT și GPT-4 de la OpenAI. „Dacă interacționați cu un software care pare inteligent, acesta este un fel de agent”, spune Qiu.

În prezent, cei mai buni agenți pe care îi avem sunt sisteme cu cazuri de utilizare foarte înguste și specifice, cum ar fi asistenții de codificare, roboții de servicii pentru clienți sau software-ul de automatizare a fluxului de lucru, cum ar fi Zapier, spune ea. Dar acestea sunt departe de un agent AI universal care poate face sarcini complexe.

„Astăzi avem aceste computere și sunt foarte puternice, dar au nevoie de micromanagement”, spune Qiu.

Plug-in-urile ChatGPT ale OpenAI, care permit oamenilor să creeze asistenți AI pentru browserele web, au fost o încercare de agenți, spune Qiu. Dar aceste sisteme sunt încă stângace, nesigure și nu sunt capabile să raționeze, spune ea.

În ciuda acestui fapt, aceste sisteme vor schimba într-o zi modul în care interacționăm cu tehnologia, crede Qiu, și este o tendință la care trebuie să ne uităm mai atent.

 

Urmărește mai jos producțiile video ale G4Media:

Susține-ne activitatea G4Media logo
Donație Paypal recurentă

Donează lunar pentru susținerea proiectului G4Media

Donează prin Transfer Bancar

CONT LEI: RO89RZBR0000060019874867

Deschis la Raiffeisen Bank
Donează prin Patreon

Donează

Citește și...