G4Media.ro

Ar putea AI să salveze de la dispariție limbile rare și pe…

sursa foto: Pexels/ Tara Winstead

Ar putea AI să salveze de la dispariție limbile rare și pe cale de dispariție din Europa?

În curând va fi mai ușor să vedeți postările de pe Facebook și Instagram în limbi mai puțin vorbite la nivel mondial, dar un expert sugerează că, pentru a îmbunătăți instrumentul, Meta ar trebui să vorbească cu vorbitori nativi, scrie Euronews.

În curând va fi mai ușor să vedeți postările Facebook și Instagram în 200 de limbi mai puțin vorbite din întreaga lume.

Proiectul Meta No Language Left Behind (NLLB) a anunțat într-o lucrare publicată luna aceasta că și-a extins tehnologia originală.

Proiectul include o duzină de limbi europene cu „resurse reduse”, precum gaelica scoțiană, galiciana, irlandeza, linguriana, bosniaca, islandeza și galeza.

Potrivit Meta, aceasta este o limbă care are mai puțin de un milion de propoziții în date care pot fi utilizate.

Experții spun că, pentru a îmbunătăți serviciul, Meta ar trebui să se consulte cu vorbitori nativi și cu specialiști în limbi străine, deoarece instrumentul trebuie încă îmbunătățit.

Meta își antrenează inteligența artificială (AI) cu date din depozitul Opus, o platformă open source cu o colecție de texte autentice de vorbire sau scriere pentru diverse limbi care pot programa învățarea automată.

Cei care contribuie la setul de date sunt experți în procesarea limbajului natural (NLP): subsetul cercetării AI care oferă computerelor capacitatea de a traduce și înțelege limbajul uman.

Meta a declarat că utilizează, de asemenea, o combinație de date extrase din surse precum Wikipedia în bazele lor de date.

Datele sunt utilizate pentru a crea ceea ce Meta numește un model lingvistic multilingv (MLM), în care inteligența artificială poate traduce „între orice pereche… de limbi fără a se baza pe datele din limba engleză”, potrivit site-ului lor.

Echipa NLLB evaluează calitatea traducerilor sale cu ajutorul unui reper de propoziții traduse de oameni pe care l-au creat și care este, de asemenea, sursă deschisă. Acesta include o listă de cuvinte sau fraze „toxice” pe care oamenii le pot învăța pe software să le filtreze în timpul traducerii textului.

Potrivit ultimei lor lucrări, echipa NLLB a îmbunătățit acuratețea traducerilor cu 44% față de primul lor model, care a fost lansat în 2020.

Când tehnologia va fi pe deplin implementată, Meta estimează că vor exista peste 25 de miliarde de traduceri în fiecare zi pe Facebook News Feed, Instagram și alte platforme.

William Lamb, profesor de etnologie și lingvistică gaelică la Universitatea din Edinburgh, este expert în gaelica scoțiană, una dintre limbile cu resurse reduse identificate de Meta în cadrul proiectului NLLB.

Aproximativ 2,5 % din populația Scoției, adică aproximativ 130 000 de persoane, au declarat la recensământul din 2022 că au anumite competențe în limba celtică din secolul al XIII-lea.

De asemenea, există aproximativ 2 000 de vorbitori de gaelică în estul Canadei, unde aceasta este o limbă minoritară. UNESCO clasifică limba ca fiind „amenințată” cu dispariția din cauza numărului redus de persoane care o vorbesc în mod regulat.

Lamb a precizat că traducerile Meta în gaelica scoțiană „nu sunt încă foarte bune”, din cauza datelor obținute prin crowdsourcing pe care le utilizează, deși „inima lor este la locul potrivit”.

„Ceea ce ar trebui să facă … dacă doresc cu adevărat să îmbunătățească traducerea este să vorbească cu oamenii, cu vorbitorii nativi de gaelică care încă trăiesc și respiră limba”, a spus Lamb.

Este mai ușor de spus decât de făcut, a continuat Lamb. Majoritatea vorbitorilor nativi au peste 70 de ani și nu folosesc computere, iar vorbitorii tineri „folosesc gaelica în mod obișnuit, nu în modul în care o fac bunicii lor”.

Un bun înlocuitor ar fi ca Meta să încheie un acord de licențiere cu BBC, care lucrează la conservarea limbii prin crearea de conținut online de înaltă calitate în această limbă.

Alberto Bugarín-Diz, profesor de inteligență artificială la Universitatea Santiago de Compostela din Spania, consideră că lingviștii precum Lamb ar trebui să colaboreze cu companiile Big Tech pentru a rafina seturile de date pe care le au la dispoziție.

„Acest lucru trebuie făcut de specialiști care pot revizui textele, le pot corecta și le pot actualiza cu metadate pe care le-am putea folosi”, a spus Bugarin-Diz.

„Oamenii din domeniul științelor umaniste și cei din domeniul tehnic, cum ar fi inginerii, trebuie să lucreze împreună, este o nevoie reală”, a adăugat el.

Există un avantaj pentru Meta în utilizarea Wikipedia, a continuat Bugarin-Diz, deoarece datele ar reflecta „aproape fiecare aspect al vieții umane”, ceea ce înseamnă că calitatea limbajului ar putea fi mult mai bună decât utilizarea unor texte mai formale.

Bugarin-Diz sugerează însă ca Meta și alte companii de inteligență artificială să își facă timp pentru a căuta online date de calitate și apoi să treacă prin cerințele legale necesare pentru a le utiliza, fără a încălca legile privind proprietatea intelectuală.

Lamb, între timp, a declarat că nu va recomanda oamenilor să o folosească din cauza erorilor din date, cu excepția cazului în care Meta face unele modificări în setul lor de date.

„Nu aș spune că abilitățile lor de traducere sunt în punctul în care instrumentele sunt de fapt utile”, a spus Lamb.

„Nu aș încuraja încă pe nimeni ca fiind instrumente lingvistice fiabile; cred că și ei ar fi sinceri în a spune asta”.

Bugarín-Diz are o poziție diferită.

El crede că, dacă nimeni nu folosește traducerile Meta, aceștia „nu vor fi dispuși” să investească timp și resurse în îmbunătățirea lor.

Ca și în cazul altor instrumente de inteligență artificială, Bugarin-Diz crede că este o chestiune de cunoaștere a punctelor slabe ale tehnologiei înainte de a o utiliza.

Urmărește mai jos producțiile video ale G4Media:

Susține-ne activitatea G4Media logo
Donație Paypal recurentă

Donează lunar pentru susținerea proiectului G4Media

Donează prin Transfer Bancar

CONT LEI: RO89RZBR0000060019874867

Deschis la Raiffeisen Bank
Donează prin Patreon

Donează

Citește și...