Nvidia prezintă un model AI care poate modifica voci şi genera sunete noi

Nvidia a prezentat luni un nou model de inteligenţă artificială (AI) pentru generarea de muzică şi conţinuturi audio, capabil să modifice voci şi să creeze sunete noi, o tehnologie destinată producătorilor de muzică, filme şi jocuri video, transmite agenția Reuters, citată de Agerpres.

Nvidia, principalul furnizor mondial de cipuri şi software pentru crearea de sisteme AI, a declarat că nu are planuri imediate de a lansa public această tehnologie, numită Fugatto, prescurtarea de la Foundational Generative Audio Transformer Opus 1. Aceasta se alătură altor tehnologii prezentate de startup-uri ca Runway şi de jucători mai mari, precum Meta Platforms, care pot genera conţinut audio sau video pornind de la o comandă sub formă de text („prompt”).

Versiunea creată de Nvidia, cu sediul în Santa Clara, California, generează efecte sonore şi muzică pornind de la o descriere text, inclusiv sunete inedite, cum ar fi o trompetă care „latră” ca un câine.

Ceea ce o diferenţiază de alte tehnologii AI este capacitatea de a prelua şi modifica sunetul existent, de exemplu prin preluarea unui vers cântat la pian şi transformarea acestuia într-un vers cântat de o voce umană sau prin preluarea unei înregistrări de cuvinte vorbite şi schimbarea accentului folosit şi a dispoziţiei exprimate.

„Dacă ne gândim la sunetul sintetic din ultimii 50 de ani, muzica sună diferit acum datorită computerelor, datorită sintetizatoarelor”, a declarat Bryan Catanzaro, vicepreşedintele diviziei de cercetare aplicată în domeniul învăţării profunde din cadrul Nvidia. „Cred că AI generativă va oferi noi capabilităţi muzicii, jocurilor video şi oamenilor obişnuiţi care doresc să creeze”, a precizat el.

În timp ce companii precum OpenAI negociază cu studiourile de la Hollywood dacă şi cum ar putea fi utilizată AI în industria divertismentului, relaţia dintre tehnologie şi Hollywood a devenit tensionată, în special după ce vedeta Scarlett Johansson a acuzat OpenAI că i-a imitat vocea, notează Reuters.

Noul model al Nvidia a fost antrenat pe date de tip open-source, iar compania a declarat că încă dezbate dacă şi cum îl va face public.

„Orice tehnologie generativă comportă întotdeauna anumite riscuri, deoarece oamenii ar putea să o folosească pentru a genera lucruri pe care am prefera să nu le facă”, a declarat Catanzaro. „Trebuie să fim atenţi la acest lucru, motiv pentru care nu avem planuri imediate de a face publică această tehnologie”, a precizat el.

Creatorii de modele generative pe bază de AI nu au stabilit încă modalitatea prin care se poate preveni abuzul de tehnologie, cum ar fi generarea de informaţii eronate de către un utilizator sau încălcarea drepturilor de autor prin generarea de personaje protejate prin drepturi de autor.

În mod similar, OpenAI şi Meta nu au indicat când intenţionează să facă publice modelele lor care generează conţinut audio sau video.

G4Media.ro

G4Media.ro

Nvidia prezintă un model AI care poate modifica voci şi genera sunete noi

Urmărește mai jos producțiile video ale G4Media:

Donează lunar pentru susținerea proiectului G4Media

Donează suma dorită pentru susținerea proiectului G4Media

Citește și...

Chat GPT-4.5 este primul model de inteligență artificială care a trecut cu brio testul Turing, cunoscut și ca „jocul imitării”, arată un studiu / Îi poate păcăli pe oponenţi că este uman în 73% din cazuri

Michelin și Brembo colaborează pentru integrarea inteligenței artificiale în sistemele de frânare

Studiu MIT: Modelele de inteligență artificială nu au valori proprii și sunt fundamental instabile