Stačí jedna fotografie a umělá inteligence ji rozezpívá, třeba Monu Lisu

  18:04
Jak se stále více vylepšují schopnosti generování obsahu za pomoci umělé inteligence, ukazuje se, že si budeme muset dávat velký pozor na to, čemu budeme věřit. Nový projekt vědců z Alibaby například ukazuje, jak se za pomoci AI z jedné fotografie člověka vytvoří poměrně realisticky vypadající obličej, který mluví nebo zazpívá, co mu zadáte.

Stačí spojit zvukovou stopu s fotografií a umělá inteligence vygeneruje zpívající tvář. | foto: Institute for Intelligent Computing, Alibaba Group

Projekt Sora od společnosti OpenAI ukázal, že generativní umělá inteligence dokáže na základě jednoduchého textového zadání vygenerovat poměrně realistickou filmovou scénu. Jedním z prvních výtvorů tohoto systému byla i asijská dívka procházející se po městě, která se tak stala symbolem této generativní AI.

16. února 2024

Nyní tento produkt umělé inteligence vzali odborníci z Institutu pro inteligentní IT, který provozuje Alibaba Group, a naučili ji „povídat a zpívat“. Sora, jak dívku přezdíváme, ale nebyla jediná, na které si vyzkoušeli schopnosti svého difúzního modelu, který nazvali EMO. Zkratka vychází z názvu Emote Portrait Alive, což je jejich systém pro generování portrétních videí pomocí difúzního modelu.

Difúzní modely

Trénink difúzních modelů se provádí tak, že se do obrázků přidává šum, který se následně učí model odstraňovat. Při generování obrázků model využívá tento proces obnovy, a vytváří tak realistické obrazy z původního šumu.

Zdroj: AI dětem

Vědci z institutu uvádí, že stačí poskytnout fotografii a zvukový soubor a EMO následně dokáže generovat AI videa, kde mohou lidé mluvit a zpívat.

„Naše metoda dokáže generovat hlasová videa s expresivními výrazy obličeje a různými polohami hlavy a zároveň dokáže generovat videa s libovolnou délkou trvání v závislosti na délce vstupního videa,“ vysvětlují autoři.

Jak je na přiloženém videu vidět, výrazy jsou velmi důvěryhodně.

Celý proces je podle jeho tvůrců nastaven tak, aby se v první fázi extrahovaly rysy z předloženého snímku, a výsledek je pak použit k vytvoření série rozpohybovaných snímků. Druhou je fáze difúzního procesu, kdy předem natrénovaný zvukový kodér zpracovává zvukové vložky.

Jak to celé probíhá, popisují tvůrci v tomto obrázku:

Popis postupu generování videa ze zdrojového snímku a zvukové stopy.

Autor:
  • Nejčtenější

Muskově SpaceX se podařilo poprvé i přes problémy uspět při testu Starship

v diskusi je 91 příspěvků

6. června 2024  12:12,  aktualizováno 

Přes 120 metrů vysoká sestava rakety Starship se ze vzletové rampy kosmodromu Starbase vydala na...

Apple naučil sluchátka nové kousky a chystá se zaplavit vaše obrazovky

v diskusi jsou 2 příspěvky

11. června 2024

Ačkoli byla konference WWDC především o novinkách v operačních systémech a představení „AI“ jako...

{NADPIS}

{LABEL} {POPISEK}

Apple nám ukázal novinky a kde všude nasadil umělou inteligenci

v diskusi jsou 4 příspěvky

10. června 2024  18:27,  aktualizováno 

V pondělí začal Apple ukazovat novinky v softwarových produktech. Na každoroční konferenci WWDC se...

Boeingu se podařilo překonat smůlu a vyslal lidi do vesmíru

v diskusi je 10 příspěvků

5. června 2024  14:38,  aktualizováno  16:53

„Je to sice dál, ale zato horší cesta,“ mohou si připomenout nesmrtelnou hlášku ze Sněženek a...

{NADPIS}

{LABEL} {POPISEK}

Herec Josef Bláha se proslavil jako Brůžek či akademik Filip

v diskusi je 18 příspěvků

8. června 2024

Čtyřruký pohádkový ředitel z Dívky na koštěti, Vrah Halík z detektivky Na kolejích čeká vrah či...

Poslední chvíle před bouří? Vyzkoušeli jsme nový iPad Pro a iPad Air

v diskusi nejsou příspěvky

13. června 2024

Vyzkoušeli jsme nové iPad Pro M4 a iPad Air M2, porovnali je se špičkovým tabletem s čipem od...

Samsung má jako první monitory, které chladí kapalina

v diskusi nejsou příspěvky

12. června 2024  21:33

Exkluzivně Společnost Samsung v Londýně oficiálně uvedla nové modely svých monitorů pro hráče i kancelářské...

Bush starší ukončil studenou válku. Kvůli recesi ale prohrál souboj s Clintonem

v diskusi je 9 příspěvků

12. června 2024

Během své kariéry byl ředitelem Ústřední zpravodajské služby (CIA), viceprezidentem i šéfem Bílého...

OBRAZEM: Nejnebezpečnější systém MHD v USA je pozemní lanovka v San Franciscu

v diskusi nejsou příspěvky

12. června 2024

Pozemní lanovka patří mezi největší atrakce San Franciska. Vyhledávanější je snad jen věznice...

Nová Miss Alabama je morbidně obézní. Vítězka váží 150 kilo, lidé se bouří

Vítězkou v soutěži National American Miss je Sara Millikenová. Třiadvacetiletá žena byla zvolena královnou krásy i...

RECENZE: To už není film, ale úkaz. Čistá nula pro Lásku na zakázku

Premium Svým způsobem je to dvojitý zázrak. Spočívá jednak v daru natočit film tak skrznaskrz špatný, jakým je Láska na...

Koupil byt i s nájemníkem a zdražil o sedm tisíc. Chce výnos 4,5 procenta

Seriál Našel jsem si nájemní byt, ve kterém bydlím několik měsíců. Platím 17 tisíc korun za nájem a k tomu měsíční poplatky za...

V paneláku vyřízli kus stropu a propojili dva byty. Vznikl mezonet

Všechno je jednou poprvé, někdy to však bývá hodně náročné. Jako třeba vyjmout jeden podlahový panel a propojit...

Čekám na transplantaci, ale dám přednost mladým, říká herec Zdeněk Žák

Herec Zdeněk Žák (71) si nikdy moc nepřipouštěl své zdravotní problémy. Nemoci přecházel a k doktoru se nehnal, až...