Nachytali byste se? Vytvořili jsme kopii hlasu kolegy, vysloví cokoli

  0:01
Byla by to krásná hračka a praktický nástroj, kdyby se ho padouši okamžitě nesnažili zneužít. Naučit model umělé inteligence mluvit hlasem vašeho kolegy, šéfa, kamaráda nebo známého herce a nechat ho přečíst libovolný text je až překvapivě snadné. Vyzkoušeli jsme to na kolegovi i prvním prezidentovi Československa.

VIDEO: Poznáte hlas skutečného Vladimíra od klonu vytvořeného umělou inteligencí?

Pro zobrazení videa musíte mít zapnutou podporu JavaScriptu

Jedním z mediálně „nejpropíranějších“ startupů produkujících umělé generování a klonování hlasu pomocí systému umělé inteligence je americký startup ElevenLabs. Jednak proto, že se díky obřím investicím mnoha společností stal „jednorožcem“, tedy firmou, jejíž hodnota se raketově dostala přes metu jedné miliardy dolarů, a jednak proto, že podle expertů právě jeho nástroje a algoritmy stojí za falešnými telefonáty amerického prezidenta Joea Bidena.

Ačkoli si někdo může autory těchto podvržených hlasů představovat jako „ajťáky“ v mikinách s kapucí, kteří se hrbí před monitory s ubíhajícími řádky programového kódu v zelené barvě, reálná práce s potřebnými nástroji je mnohem méně romantická.

Vyzkoušeli jsme to právě s nástroji od ElevenLabs. Stačilo si vytvořit účet, vybrat vhodný balíček předplatného, zaplatit… a pak už se otevře elegantní webového rozhraní, jehož prostřednictví máte ke všem nástrojům přístup.

Dnes si ukážeme jen jednu z funkcí – naklonujeme cizí hlas a necháme ho přečíst text, který nikdy neřekl.

Stačí krátká nahrávka

První, co je potřeba udělat, je vytvořit hlasový profil. K tomu slouží jednoduchý formulář, kde vyplníte jméno a nahrajete nejméně jeden, nejvíc dvacet pět zvukových vzorků, z nichž každý může mít až 10 MB. Audio by mělo mít aspoň minutu. Samozřejmě, pokud nahrajete dělší vzorek, výsledek bude přesnější.

Systém musí dostat nahrávku pouze s jedním hlasem, který chcete naklonovat, proto pokud chcete systém učit třeba z rozhovoru, je potřeba ho napřed sestříhat – my k tomu úspěšně používáme bezplatné Audacity. Kvůli příkrému limitu ve velikosti souboru, který systém od ElevenLabs akceptuje, jsme vzorky komprimovali do formátu MP3.

ElevenLabs

Společnost založili v roce 2022 Piotr Dąbkowski, bývalý inženýr strojového učení společnosti Google, a Mateusz Staniszewski, plánovač nasazování software ve společnosti Palantir. Oba vyrostli v Polsku a inspirací pro založení ElevenLabs jim údajně bylo sledování nepovedeně dabovaných amerických filmů.

zdroj: Wikipedia

Součástí dialogového okna, ve kterém tvoříte hlasový profil, je možnost vložit identifikační štítky a popis hlasu. Dialog je v angličtině a tak jsme to dodržovali. Nakonec musíte čestně prohlásit, že máte práva k užití hlasu a že výsledek nepoužijete k nějakým nekalostem. Tím je profil připraven a můžete ho kdykoli použít ke generování „podvrženého“ hlasového projevu.

My jsme takto vytvořili hlasový profil kolegy Vladimíra Vokála, jehož hlas znáte například z pořadu Rozstřel, načtených historických knih vycházejících v rámci Podcastů iDNES.cz nebo zpráv Rádia Impuls. Model jsme natrénovali na sedmiminutovém vzorku načtené knihy a asi třech minutách živého rozhlasového rozhovoru.

Hlas umělého Vladimíra

U zvoleného hlasového profilu – s naším středním předplatným „Creator“ za dvacet dva dolarů měsíčně si jich můžeme uložit až třicet – stačí kliknout na Use (použít) a do připraveného okna zkopírovat připravený text (text to speech). Můžete také nahrát zvukový soubor s mluveným slovem, který systém namluví znovu zvoleným hlasem (speech to speech).

Formulář pro vytvoření podvrženého hlasového záznamu

V sekci nastavení si můžete pohrát s parametry vytváření hlasu, ideální je na kratším vzorku textu vyzkoušet víc nastavení a celý text (limit je pět tisíc znaků na jeden výsledný zvukový soubor) načíst až s vhodným nastavením. Každý balíček předplatného má totiž měsíční limit na počet znaků (u balíčku Creator je uvedeno sto tisíc, reálně jsme jich dostali minimálně o třicet tisíc víc), tak je dobré neplýtvat.

Nastavení hlasové syntézy

Je možné si vybrat z několika AI modelů, nicméně čeština je pouze v Multilingual V2, takže v tomto případě je volba nejspíš jednoduchá.

Výběr jazykových modelů

A pak už stačí kliknout na „Generate“. Po několika desítkách sekund se spustí přehrávání již namluvené části, která postupně přibývá – někdy se reprodukce na chvilku zastaví, jindy to systém stihne odbavit rovnou pro poslech. Každopádně je vygenerování zvukové verze textu otázkou desítek sekund až jednotek minut – odbavuje se na serverech společnosti, evidentně mají zatím dostatek volné kapacity.

Vladimír dopadl (skoro) výborně, ale…

Jak dopadlo namluvení textu hlasem Vladimíra Vokála generovaným nástroji od ElevenLabs, se můžete přesvědčit sami v úvodním článkovém videu. Je v něm pro srovnání i kus skutečně načteného textu – výňatek z jednoho ze vzorků, který jsme použili pro trénování.

Zaměnit vygenerovaný hlas za skutečný Vladimírův projev by bylo docela snadné. Varováním by mohly být snad jen ne vždy dobře trefené pauzy na nádechy, případně kladení důrazu tam, kam nepatří. Ale kolik lidí takové detaily „praští do ucha“ ve chvíli, kdy o kvalitě projevu nepřemýšlejí?

Ne vždy se ale dílo podařilo. Ukázalo se, že trénovaný hlas profesionálního moderátora je pro klonování pomocí AI ideální. Není v něm totiž mnoho chyb a fonetických nedokonalostí a navíc je nahrán ve vysoké zvukové kvalitě. Zejména z druhého důvodu jsme poněkud narazili s nápadem nechat hlasem prvního československého prezidenta Tomáše Garrigua Masaryka přečíst novoroční projev současného prezidenta Petra Pavla. V „jakés takés“ kvalitě jsme našli jen úplné minimum dobových nahrávek – a na výsledku to bylo znát. Ostatně, poslechněte si sami.

Nepřesvědčivě dopadl pokus o stejnou realizaci, tentokrát ale s hlasem prvního prezidenta České republiky Václava Havla. Jeho charakteristické ráčkování se AI model nenaučil a pro Havla specifická dynamika a kladení důrazů se do výsledku taky nedostaly. Výsledek měl sice podobnou barvu, ale že nejde o záznam skutečného projevu, bylo docela zřejmé.

Nástroje od ElevenLabs umí i další triky, například vytvoření vlastního hlasového avatara pomocí mnohem preciznějšího učícího procesu. Ale to si vyzkoušíme příště.

  • Nejčtenější

NASA ukázala, co byste viděli před možná nejbolestivější smrtí ve vesmíru

v diskusi je 138 příspěvků

10. května 2024  11:54

Superpočítače lze využít ke zpracování zajímavých úloh. Vedle hledání nových molekul pro léky,...

KVÍZ: Zapomenuté funkce domácí techniky, po kterých se už nikomu nestýská

v diskusi je 18 příspěvků

13. května 2024

Byly běžnou součástí životů vás, vašich rodičů nebo prarodičů. Většinu z nich dnes však nikdo...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Zastřešený tank z Cesty do pravěku konečně odhaluje své evoluční tajemství

v diskusi jsou 3 příspěvky

11. května 2024

Dramatický boj stegosaura s ceratosaurem byl ve filmu Cesta do pravěku jednou z nejznámějších scén....

Hoover celý život skrýval homosexualitu. Nechal sledovat Lennona či Chaplina

v diskusi je 11 příspěvků

10. května 2024

10. května 1924 se do čela americké FBI dostal John Edgar Hoover. Kontroverzní osobnost vydržela ve...

{NADPIS reklamního článku dlouhý přes dva řádky}

{POPISEK reklamního článku, také dlouhý přes dva a možná dokonce až tři řádky, končící na tři tečky...}

Pět věcí, které byste s Windows měli dělat, ale možná neděláte, a naopak

v diskusi je 7 příspěvků

15. května 2024

Možná prakticky ihned po instalaci, při prvním spuštění nového PC nebo později deaktivujete některé...

Proklatě krátkou lanovku v Záhřebu museli zpočátku cestující občas i tlačit

v diskusi nejsou příspěvky

16. května 2024

V Záhřebu najdeme pozemní lanovku, která patří mezi nejkratší zařízení svého druhu na světě. Délka...

Google chce měnit vyhledávání a také ukázal asistenta, který slyší a vidí

v diskusi je 9 příspěvků

15. května 2024  7:53

Společnost Google na výroční konferenci tradičně nazvané I/O, představila řadu novinek. Všechny se...

Pět věcí, které byste s Windows měli dělat, ale možná neděláte, a naopak

v diskusi je 7 příspěvků

15. května 2024

Možná prakticky ihned po instalaci, při prvním spuštění nového PC nebo později deaktivujete některé...

Do Evropy konečně přichází významný konkurent ChatGPT. AI se jménem Claude

v diskusi jsou 4 příspěvky

14. května 2024  15:39

Už i v Česku si budou moct uživatelé vyzkoušet generativní umělou inteligenci vyvinutou startupem...

Akèní letáky
Akční letáky

Prohlédněte si akční letáky všech obchodů hezky na jednom místě!

Bohužel nám to nevyšlo, oznámili manželé Pagáčovi rozchod po šesti letech

Herečka Patricie Pagáčová (35) a dramaturg Tibor Pagáč (32) se rozešli po pěti letech manželství. Žádost o rozvod zatím...

Eurovizi vyhrál nebinární Švýcar Nemo. Nizozemce vyloučili za „výhružný pohyb“

Ve švédském Malmö rozhodli o vítězi letošní Eurovize. Stal se jím švýcarský nebinární zpěvák Nemo. Soutěž doprovázely...

Moderátorka Petra Křivková-Svoboda přišla při tragické nehodě o manžela

Moderátorka poledních zpráv televize Nova Petra Křivková-Svoboda (41) v neděli ztratila svého manžela Ondřeje Křivku...

Zemřel Vlastimil Harapes. Baletní mistr Národního divadla i českých filmů

Ve věku 77 let zemřel tanečník a herec Vlastimil Harapes. Dlouhá léta byl sólistou baletu Národního divadla. Zahrál si...

Miss Czech Republic 2024 se stala studentka Adéla Štroffeková z Prahy

Vítězkou 15. ročníku Miss Czech Republic se stala studentka Adéla Štroffeková (21). Českou republiku bude reprezentovat...