Modelele de inteligență artificială mai vechi prezintă semne de declin cognitiv, conform unui nou studiu

Tehnologiile de inteligenţă artificială (AI), aşa cum sunt modelele lingvistice mari (LLM) sau chatboţii, la fel ca oamenii, prezintă semne de deteriorare a abilităţilor cognitive prin îmbătrânire, conform unui studiu publicat la sfârşitul anului trecut în British Medical Journal (BMJ), transmite luni revista Live Science,citată de Agerpres.

Oamenii sunt din ce în ce mai dependenţi de inteligenţa artificială (AI) pentru diagnostice medicale datorită rapidităţii cu care aceste sisteme pot depista anumite anomalii şi simptome în istoricul medical al pacienţilor, în radiografii şi în alte teste şi analize, înainte de instalarea unor simptome. Însă conform acestui studiu, AI-ul este departe de a fi infailibil, fiind expus declinului cognitiv.

„Rezultatele acestei cercetări contestă ipoteza că inteligenţa artificială îi va înlocui în curând pe medicii umani”, conform autorilor studiului care arată că „declinul cognitiv devenit evident în cazul unor chatboţi de vârf le poate afecta precizia în diagnoza medicală şi poate submina încrederea pacienţilor”.

Cercetătorii au testat chatboţi LLM disponibili public, printre care ChatGPT al OpenAI, Sonnet dezvoltat de Anthropic şi Gemini, dezvoltat de Alphabet, folosind testul Montreal Cognitive Assessment (MoCA) – o serie de teste folosite de neurologi pentru a evalua atenţia, memoria, limbajul, abilităţile spaţiale şi funcţiile mentale de execuţie.

MoCA este folosit în mod obişnuit pentru a evalua sau testa apariţia declinului cognitiv în maladii precum demenţa. Subiecţii primesc o serie de sarcini cum ar fi desenarea unei anumite ore pe un ceas, să pornească de la 100 şi să scadă în mod repetat numărul 7, să-şi amintească cuvinte de pe o listă şi aşa mai departe. În cazul oamenilor, un punctaj de 26 dintr-un maxim de 30 de puncte este considerat un punctaj de trecere (subiectul nu suferă de declin cognitiv).

În timp ce unele puncte ale testării, cum ar fi denumirea, atenţia, limbajul şi capacitatea de abstractizare au fost aparent uşoare pentru majoritatea LLM-urilor utilizate, toate au avut rezultate slabe în abilităţile vizuale/spaţiale şi în sarcinile de execuţie, unele având rezultate mai proaste decât altele în domenii precum memoria întârziată.

În mod esenţial, în timp ce cea mai recentă versiune a ChatGPT (versiunea 4) a obţinut cel mai mare punctaj (26 din 30), programul Gemini 1.0 LLM a obţinut doar 16, ceea ce duce la concluzia că LLM-urile mai vechi prezintă semne de declin cognitiv.

Autorii studiului notează că descoperirile lor sunt doar observaţionale – diferenţele critice între modurile în care funcţionează AI şi mintea umană înseamnă că experimentul nu poate constitui o comparaţie directă. Dar ei avertizează că cercetarea ar putea indica ceea ce ei numesc o „zonă semnificativă de slăbiciune” care ar putea frâna implementarea AI în medicina clinică. Mai exact, ei au argumentat împotriva utilizării AI în sarcini care necesită abstracţie vizuală şi funcţie executivă.

De asemenea, rezultatele studiului ridică o perspectivă oarecum amuzantă; neurologii umani ar putea prelua o clientelă cu totul nouă – sistemele AI care prezintă semne de declin cognitiv.