Voice engine: Dovoljno je 15 sekundi za AI sinkronizaciju

8 travnja, 2024

OpenAI je najavio Voice engine, model umjetne inteligencije za stvaranje sinkroniziranih glasova na temelju segmenta snimljenog audio zapisa od samo 15 sekundi.

Koristeći duboko učenje AI modela, softveri ne samo da mogu stvarati realistične glasove, već i uvjerljivo imitirati postojeće glasove koristeći male uzorke audio zapisa, objavio je portal Wired najavivši Voice Engine.

Tehnologija sinkronizacije glasa općenito nije nova – postoji nekoliko AI modela sinkronizacije glasa od 2022. godine, ali ideja da svatko može koristiti specifičnu vrstu tehnologije glasa tvrtke OpenAI vrlo je značajna.

OpenAI navodi da prednosti njihove tehnologije glasa uključuju pružanje pomoći u čitanju putem glasova koji zvuče prirodno, omogućujući globalni doseg za kreatore prevođenjem sadržaja pritom očuvajući izvorne naglaske, i pomoć pacijentima sa poremećajima u govoru.

Sigurnost društva kao prioritet

Unatoč najavi, OpenAI još nije spreman objaviti svoju tehnologiju široj publici jer smatraju kako objava može biti preveliki rizik.

“U skladu s našim pristupom sigurnosti umjetne inteligencije i našim dobrovoljnim obvezama, odabrali smo prikaz, ali ne i objavu ove tehnologije u ovom trenutku”, za stranicu Wired piše OpenAI.

“Nadamo se da ovaj prikaz Voice Enginea ističe njegov potencijal, ali i potiče potrebu za jačanjem društvene otpornosti na izazove koje donose sve uvjerljiviji generativni modeli.”

Dileme tehnološkog napretka

Unatoč svim prednostima ove tehnologije, 15 sekundi snimljenog glasa neke osobe može dovesti do potencijalne zloupotrebe.

Čak i ako OpenAI nikad ne objavi svoj Voice Engine javno, sposobnost sinkronizacije glasova već je prouzrokovala probleme u društvu putem telefonskih prevara.

Primjerice, tehnologija sinkronizacije glasa može se koristiti za provaljivanje u bankovne račune koji koriste glasovnu autentifikaciju.

Voice engine nije za javnost

OpenAI prepoznaje kako ova tehnologija može uzrokovati probleme ako se objavi pa prvo pokušavaju raditi na riješavanju tih problema. Tvrtka trenutno pokazuje svoju tehnologiju, ali je još nije spremna ponuditi javnosti zbog potencijalnog društvenog kaosa koji bi objava mogla uzrokovati.

Umjesto toga, OpenAI je preusmjerio svoj marketinški pristup da izgleda kao upozorenje na ovu, već postojeću, tehnologiju na odgovoran način.

“Pristupamo oprezno zbog mogućnosti zloupotrebe sinkroniziranih glasova. Nadamo se pokretanju dijaloga o odgovornom korištenju sinkroniziranih glasova i kako se društvo može prilagoditi tim novim mogućnostima. Na temelju tih razgovora i rezultata testiranja, donijet ćemo informiraniju odluku o tome hoćemo li i kako ćemo razviti ovu tehnologiju”, piše OpenAI.

Prilagodba na umjetnu inteligenciju

U skladu sa svojom misijom opreznog uvođenja tehnologije, OpenAI je u svom blogu dao tri preporuke kako bi se društvo trebalo prilagoditi njihovoj tehnologiji, a ti koraci uključuju postupno ukidanje autentifikacije temeljene na glasu za bankovne račune, educiranje javnosti o razumijevanju “mogućnosti prijevara AI sadržajem” te ubrzanje razvoja tehnika koje mogu pratiti podrijetlo audio sadržaja tako da je uvijek jasno kada komunicirate s pravom osobom, a kada s umjetnom inteligencijom.

OpenAI također kaže kako bi buduća tehnologija sinkronizacije glasa trebala zahtijevati provjeru da je izvorni govornik svjesno dodao svoj glas usluzi i stvaranje popisa glasova koji su zabranjeni za sinkroniziranje, poput onih koji su previše slični uglednim osobama.

Iako su prednosti ove tehnologije jasne, poput pomoći u čitanju i podrške osobama s poremećajima u govoru, postoji zabrinutost zbog potencijalne zloupotrebe. OpenAI ističe važnost odgovornog korištenja tehnologije te i dalje traži načine kako bi se društvo moglo prilagoditi novim mogućnostima i izazovima koje donosi umjetna inteligencija.

Objavljeno u Zanimljivosti i označeno digitalizacija, novosti, umjetna inteligencija