Testování hranic AI: Nevěřte tomu, co vidíte

Představte si, že na vás ráno při pročítání zpráv vyskočí senzační titulek: „Tomu neuvěříte! Václav Klaus jako ekologický aktivista. V emotivním projevu, který zveřejnil na internetu, vyzval k boji s globálním oteplováním“. Součástí zprávy by pak bylo video, na kterém Václav Klaus v šedém saku před vlajkou České republiky apeluje na veřejnost. Pokud byste zprávě uvěřili, nebo ji dokonce sdíleli dál, skočili byste na takzvaný deepfake, tedy video, které bylo upraveno pomocí umělé inteligence, aby rozšířilo nepravdivé informace. V tomto konkrétním případě by převrátilo myšlenkový svět Václava Klause vzhůru nohama.

Falešná videa, vytvořená či upravená pomocí umělé inteligence, nejsou ničím novým. Na Facebooku a jiných sociálních sítích kolují podvodná videa, na kterých Petr Pavel či Andrej Babiš lákají k zaručeným investicím. Na Slovensku zase falešná Zuzana Čaputová či Robert Fico ponoukají veřejnost k nákupu podílu v podvodné platformě Slovenského plynárenského průmyslu. Po celém světě přibývají falešná videa nejen podvodníků a zlodějů, ale také propagandistů. Taková deepfake videa jsou často součástí systematické kampaně, což se přihodilo například ukrajinskému generálovi Zalužnému. Podvržený generál například na videu tvrdil, že Zelenskyj je nepřítel. Šlo přitom o snahu Kremlu vnést mezi Ukrajince nejistotu a svár.

Co je to deepfake?

Deepfake je technologie umělé inteligence a strojového učení, která umožňuje vytvářet velmi realistické, avšak falešné audiovizuální záznamy. Označení vzniklo spojením termínů „deep learning“ (hluboké učení) a „fake“ (falš, podvrh). Tato technologie využívá pokročilé algoritmy strojového učení, zejména typu nazývaného generativní adversariální sítě (GANs), případně diffusion-based modely.

Pomocí technologie deepfake lze upravit či nově vytvořit videa nebo audionahrávky natolik věrohodně, že napodobením vzhledu a hlasu konkrétní osoby působí jako skutečné. Deepfake videa a audionahrávky jsou často tak přesvědčivé, že je velmi obtížné je odlišit od skutečných záznamů. Mohou být použity k vytvoření obsahu, v němž osoby říkají nebo dělají věci, které ve skutečnosti nikdy neřekly ani neudělaly. To může být zneužito mnoha způsoby, třeba k produkci falešných zpráv, k manipulaci s veřejným míněním, ale i například k vytváření pornografie.

Důvodem prudkého nárůstu zneužívání této technologie je jednoduchý fakt – je to snadné. Podvodný obsah lze vyrábět prakticky doma na koleni, s minimální výbavou a pomocí umělé inteligence, což je přesně postup, který jsme zvolili v redakci investigace.cz při vytváření falešného ekologického aktivisty Klause.

„Kdyby na mě tohle video vyskočilo v reelsech (formát krátkých videí na Facebooku a Instagramu, pozn. red.), určitě ho dokoukám do konce, spíš víckrát než jednou, minimálně o něm budu chvilku přemýšlet a podělím se o něj nadšeně dál. Je to kandidát na virál (populární obsah s obrovským dosahem, pozn. red.),“ říká psycholožka Kateřina Chládková z Psychologického ústavu AV ČR. „Audio výborně simuluje řečový projev formálnějšího stylu. Frázování, intonace a obsah sdělení dávají dohromady smysl. Řeč zní přirozeně, jsou patrné nádechy, barva hlasu jasně definuje mluvčího.“

Nicméně nahrávka má i svoje nedostatky. „Spojení audia a videa se v artikulaci občas trefuje přesně, někdy to však vypadá, jako by mluvčí zamlaskal, ale mlasknutí není slyšet. Občas je audio a video špatně synchronizované.“ To ale podle Chládkové nemusí být nutně zásadní, protože podobné problémy se synchronicitou audia a videa jsou při slabém připojení k internetu běžné, a nemusí tak vzbuzovat podezření.

Právě nepřesnosti, které v těchto falešných obsazích stále ještě zůstavají, by měly v divákovi vzbuzovat podezření. Technologie se však stále zdokonalují a dá se očekávat, že v dohledné době bude už kdokoli schopen vyrobit obsah, jehož nepravost nebude pouhým okem rozeznatelná. S ověřováním pravosti videí pak mohou pomoci další počítačové programy a platformy, které budou deepfakes detekovat a označovat. Je také možné, že si lidé na to, že video není důkaz, zkrátka zvyknou.

Jak poznat deepfake video?

Nesrovnalosti v obličeji: Hledejte odchylky v obličeji, jako jsou zvláštní stíny, chybně zarovnané oči, neobvyklé pohyby rtů nebo nesrovnalosti v barvě pleti.
Nepřirozené pohyby a výrazy: Deepfake videa mohou obsahovat nepřirozené či přehnané pohyby obličeje nebo výrazy, které neodpovídají běžným projevům chování dané osoby.
Nekonzistence ve zvuku: Zvuk a obraz nemusí být dokonale synchronizovány. Hlas může znít nepřirozeně a pohyby úst nemusí odpovídat tomu, co daný člověk říká.
Pozadí a osvětlení: Pozadí deepfake videa může vypadat rozmazaně nebo nepřirozeně a to, jak je mluvčí osvětlen, nemusí odpovídat osvětlení ve zbytku scény.
Omezený rozsah pohybu: V deepfake videích může být rozsah pohybu postavy mluvčího velmi omezen, zejména pokud bylo video vytvořeno z omezeného množství původního materiálu.
Nekvalitní obraz: Ačkoli deepfake technologie rapidně pokročila, některá videa mohou stále obsahovat divné zbytky jiných obrazů, deformace nebo oblasti, kde je kvalita obrazu snížená.
Textury a detaily kůže: Někdy deepfake videa nepřesně reprodukují texturu a detaily kůže, což může způsobit, že obličej vypadá nepřirozeně nebo „plasticky“. Zvláště při vyšším rozlišení může být tento nedostatek viditelnější.
Pohyby úst při tichu. Pozorujte pohyby úst, které neodpovídají řeči mluvčího nebo jsou přítomné, i když postava mlčí. Může se jednat o chybu při kódování videa nebo špatný deepfake, varovný signál to ovšem je.
Smích: Ve většině trénovacích dat pro vytváření deepfake videí nebyl přítomen smích, což způsobuje, že smích ve falešných videích vždy působí nepřirozeně nebo zcela chybí.
Používání logiky a kritického myšlení: Pokud je ve videu obsah, který se zdá být nepravděpodobný nebo šokující, je dobré zvážit ověření konkrétních informací z dalších zdrojů.

Deepfake krok za krokem

Před samotným vznikem našeho videa bylo nutné vytvořit text, který by měl Klaus říkat. Pro jeho tvorbu jsme v redakci investigace.cz zvolili ChatGPT, který jsme naučili analyzovat a napodobovat styl konkrétního autora.

Druhým krokem bylo vytvoření falešného hlasu Václava Klause. K tomu jsme využili službu ElevenLabs, kterou jsme učili pomocí několika nahrávek Klausových projevů stažených z internetu. Detaily celého postupu si můžete přečíst v předchozím díle naší série.

Nakonec jsme se zaměřili na video. Pro jeho vytvoření jsme použili open source nástroj Face Fusion, který je veřejně ke stažení a jeho instalace zabere pár minut. Software nabízí základní možnosti, jako je například face swap, což znamená přehození obličeje ze zdrojové fotografie na jinou fotografii nebo video. Během několika minut se tak může slovenská prezidentka Zuzana Čaputová přeměnit v Taylor Swift. Další funkcí, kterou nástroj Face Fusion například poskytuje, je lip sync, tedy synchronizace pohybu úst mluvčího s libovolným zvukem.

Lip Sync (Synchronizace rtů)
Face Swap (Výměna obličejů)
Voice Cloning (Klonování hlasu)
Full Body Deepfakes (Deepfake celého těla)
Expression Swap (Přenos výrazů)
Age Progression/Regression (Stárnutí/omlazování)
Background Manipulation (Manipulace s pozadím)

Jde o metodu modifikující pohyby úst ve videozáznamu tak, aby odpovídaly novému audio záznamu. Obvykle je cílem přimět postavu ve videu, aby „řekla“ něco, co ve skutečnosti nikdy neřekla. Tato metoda je často používána pro vytváření klamavých prohlášení veřejně známých osobností nebo k výrobě falešných rozhovorů s nimi.

Jde o deepfakes, které kompletně nahrazují obličej jedné osoby ve videozáznamu obličejem osoby jiné. Tato technika umožňuje vytvořit iluzi, že daná osoba je v situaci nebo na místě, kde ve skutečnosti nikdy nebyla. Metoda se často používá v zábavním průmyslu pro vytváření memů nebo parodií, může být ale také zneužita pro šíření dezinformací či pro pornografický obsah.

Tato metoda umožňuje vytvářet audionahrávky, ve kterých známá osoba mluví synteticky vygenerovaným hlasem. Klonování hlasu využívá vzorky skutečného hlasu daného člověka. Pomocí nich vytváří digitální kopii, která může být použita k reprodukci jakéhokoli textu s charakteristickými rysy a intonací původního hlasu.

Jde o vytváření nebo modifikaci videí tak, aby zobrazovaly celé postavy v situacích a při aktivitách, ke kterým ve skutečnosti nikdy nedošlo. Tato technika dokáže generovat komplexní scény, do nichž jsou osoby umisťovány a mohou v nich provádět různé aktivity, což zvyšuje realističnost a přesvědčivost deepfake videí.

Přenos výrazů umožňuje kopírovat a aplikovat výrazy obličeje z jednoho videa na obličej osoby ve druhém videu. Tímto způsobem lze manipulovat emoce a reakce postav ve videu. To umožňuje vytvářet scény, kde osoby vyjadřují pocity, které v původním materiálu neměly.

Tato technika umožňuje upravit věk osoby ve videu, čímž se vytváří verze, kde je daný člověk uměle zestárlý nebo omlazený. Tak mohou vznikat scény, které zobrazují, jak by osoba vypadala v různých fázích svého života, což má využití jak v zábavním průmyslu a bulváru, tak například v kampani o rizicích sdílení obsahu, na kterém jsou děti, na internetu.

Tato manipulace umožňuje měnit nebo kompletně nahrazovat pozadí ve videu, což mění kontext, ve kterém jsou osoby zobrazeny. Technika může být použita k umístění osob do jiných míst, k odstraňování či k přidávání objektů do pozadí a k falšování celé scény, což může zásadně měnit význam nebo účel videa.

K vytvoření podvodného videa s Václavem Klausem jsme použili práve lip sync, přičemž původní video je volně dostupné na youtubovém kanálu Institutu Václava Klause. Vygenerování samotného deepfake videa trvalo na běžném notebooku přibližně 12 minut.

Na závěr přišlo vytvoření titulků. Jejich funkce je důležitá ze dvou důvodů: je stále častější, že videoobsah konzumujeme na telefonu se ztlumeným zvukem, titulky jsou tak důležité k přenesení samotného sdělení, zároveň ale odpoutávají pozornost od nedokonalostí například v pohybu úst mluvčího. Titulky jsme vytvořili opět pomocí umělé inteligence, a to v podobě služby Subper, která převede audio na text a vytvoří titulky – byť třeba s jedním překlepem. Konečné pospojování dohromady pak obstaral nástroj ffmpeg.

Celkové náklady na tuto operaci se pohybují v jednotkách dolarů.

Autor textu: Josef Šlerka

Úvodní grafika: Josef Šlerka s pomocí Midjourney a FaceFusion

Zvláštní poděkování za konzultace patří Maty Bohackovi ze Standfordské univerzity.

Podcast Odposlech s Josefem Šlerkou o experimentu s podvrženým videem na sociálních sítích poslouchejte zde:

Líbil se vám tento text? Podpořte redakci investigace.cz

Financování získáváme z mezinárodních grantů a nadací na podporu nezávislé žurnalistiky, ale žádný z těchto zdrojů není jistý. Jedinou jistotu nám dává pravidelná finanční podpora od vás, našich čtenářů. Pokud vám naše práce dává smysl, budeme rádi, když ji podpoříte. Číslo účtu: 6688088/5500

Podporujte nezávislou investigativní žurnalistiku. Děkujeme.