Ze zákulisí: Jak jsme porcovali slona

Projekt Kočnerova knižnica získal zvláštní cenu v rámci slovenské Novinářské ceny 2019.

Technický tým OCCRP (Organized Crime and Corruption Reporting Project) získal před týdnem na Slovensku cenu Fondu investigativní žurnalistiky za práci na zpřístupnění takzvané Kočnerovy knižnice. Přinášíme popis zkušeností techniků OCCRP ze zpracovávání unikátního datového souboru o velikosti 53 TB a jeho bezpečného zpřístupňování investigativním novinářům. Zkrácený článek vychází z původního příspěvku technického týmu OCCRP. Původní článek How to eat an elephant, obsahující detailnější technické návody, si můžete přečíst v angličtině.

V listopadu 2019 jsme informovali, že prostřednictvím mezinárodní sítě OCCRP jsme získali přístup k 53 terabajtům dat, tvořících celý policejní spis k vraždě Jána Kuciaka a Martiny Kušnírové. (Původní objem dat byl 70 terabajtů, po očištění od bezobsažných souborů zůstalo k analýze oněch 53 terabajtů.) Datový archiv sestával z digitálních kopií zabavených počítačů a telefonů, záznamů z bezpečnostních kamer a mnoha dalších informací. Tato data jsou od ledna 2020 zpřístupněna nezávislým slovenským novinářům, aby je prozkoumali a ve veřejném zájmu takto zprostředkovali slovenské veřejnosti klíčové informace. V Bratislavě za tímto účelem vznikla takzvaná Kočnerova knižnica. Jedná se o elektronickou studovnu s několika počítači, na kterých je online přístup k získaným datům. Slovenští novináři z šesti velkých a seriózních novinářských redakcí postupně prohlížejí obsažená data, společně vyhodnocují a ověřují zjištěná fakta a publikují důležité informace.

Tašky plné dat

70 TB dat k případu Jána Kuciaka a Martiny Kušnírové, zdroj: OCCRP

Internet zdánlivě oprostil informace od jejich hmotných nosičů a umožňuje nám rychlý přenos dat napříč kontinenty. V případě tak extrémního objemu, jakým je 53 terabajtů, se ale věc má jinak. Data jsme museli několikrát fyzicky přemisťovat v batozích plných datových disků, a to na ose Bratislava–Praha–Berlín. Technici po této zkušenosti dospěli k rozhodnutí, že pro práci na tomto projektu pronajmou největší server, jaký se jim podaří najít. Kopírování tak velkého objemu dat na běžný server by normálně trvalo týdny. V tomto směru nám velmi pomohlo České sdružení CZ.NIC, jelikož umožnilo nahrát data z disků na server přímo z takzvané páteřní sítě, čímž se celý přenos nesmírně urychlil.

Po získání dat chtěli technici jako první zjistit, co všechno ten obrovský nepřehledný balík asi obsahuje. Použili proto speciální program, jenž prozkoumal adresáře z původních disků a vytvořil seznam všech jednotlivých souborů a jejich velikostí. Tento výsledný prostý textový soubor měl mimochodem sám velikost 5 gigabajtů, což je objem jednoho DVD.

Jak se v tom množství vyznat

Ještě před stahováním a rozbalováním dat bylo třeba připravit strukturu pro práci s těmito údaji. Technici rozdělili prostředí na pronajatém serveru do tří oddílů. Oddíl original/ obsahoval kopii souborů ve stavu, v jakém jsme je získali, a byl určen pouze ke čtení. Oddíl work/ obsahoval úplnou kopii dat, jež technici postupně rozbalovali a čistili od „balastu“. Třetí oddíl desktop/ obsahoval data v podobě, v jaké je uvidí novináři. Pro lepší orientaci byly vytvářeny srozumitelně pojmenované symbolické odkazy vedoucí k odpovídajícím souborům. Například soubor „work/bravo/011/048/IMG.E01.unpacked“ byl pro novináře dostupný přes odkaz desktop/Suspect 1’s laptop (tzn. stolní počítač/laptop podezřelého č. 1).

Největší část dat tvořily záznamy z bezpečnostních kamer a kopie z paměti počítačů i telefonů, ale i z xboxů, dronů nebo kamer s nočním viděním, zabavených policií. Pro novinářskou práci byl stěžejní právě obsah telefonů a počítačů. Jejich datové kopie bylo potřeba zpracovat tak, aby je reportéři mohli snadno prohlížet.

Rozbalováním této objemné části dat se místo na pronajatém serveru rychle plnilo. Technici potřebovali ještě nerozbalená data pročistit a ušetřit tak kapacitu serveru. Ve všech kopiích ze zabavených počítačů a telefonů byly obsaženy objemné soubory operačních systémů a počítačových i telefonních aplikací. Ty pro prohlížení obsahu zabavených zařízení nejsou potřeba. Důležitou roli při hledání a mazání těchto souborů sehrál seznam známý jako Reference Data Set, který zveřejňuje státní správa USA. Je to přehled všech typů souborů, jež jsou obvykle obsažené v komerčně prodávaných počítačových programech.

Kde hledat to nejdůležitější

I po velmi pracném očištění a rozbalení dat z počítačů a telefonů nebylo vyhráno. Data na původních discích nebyla nijak systematicky seřazena a nebylo možné se v nich orientovat. Práce reportérů by tak pravděpodobně byla velmi složitá a zdlouhavá. Technici během otevírání složek s daty zapisovali jejich obsah a díky tomu později vytvořili strukturu, kde byla například data z různých zabavených zařízení označená podle jejich původních majitelů, aby se novináři mohli zaměřit na detailní průzkum důkazů, které pro ně byly nejzajímavější.

Součástí důkazů byly také zaheslované dokumenty. Popis reverzního inženýrství při prolamování hesel by vydal na samostatný článek. Při zmínce o zaheslovaných dokumentech a přístrojích je ale dobré si připomenout, že zatčení Juliana Assangeho bylo provedeno na základě obvinění z pokusu o prolomení počítačového hesla. Lze očekávat, že taková obvinění mohou být v budoucnu uplatněna také proti novinářům kdekoli na světě.

Studovna dat

Zatímco technici data rozbalovali, čistili a zařazovali, museli také přemýšlet nad další zásadní otázkou. Jak se novináři k těmto informacím dostanou? Při diskuzi nad tímto úkolem jsme se snažili především zabránit nekontrolovanému šíření citlivých materiálů, protože tím by bylo ohroženo jak soukromí osob zapojených do probíhajícího soudního procesu k vraždě Jána Kuciaka, tak i samotný průběh nestranného procesu.

Dohodli jsme se na vytvoření jakési přístupové místnosti a uvažovali jsme, kde ji zřídit. V úvahu přicházela Vídeň, Praha nebo nějaké diplomatické prostory. Nakonec jsme našli bezpečný prostor v Bratislavě.

V pronajaté místnosti technici zřídili několik pracovních stanic s operačním systémem Silverblue. Tyto stanice jsou v podstatě laptopy, z nichž je fyzicky odstraněno zařízení wifi, bluetooth a karty gsm a kde jsou zablokovány USB porty. Připojeny jsou přes router k datovému serveru pomocí VPN Wireguard. Toto připojení ovšem neumožňuje přístup k veřejnému internetu.

Přístup do místnosti jsme nabídli vybraným slovenským médiím. Novinářům z těchto médií je k dispozici „knihovník“, což je pracovník OCCRP nebo Investigativního centra Jána Kuciaka. Knihovník novinářům pomáhá s použitím pracovních stanic a poskytuje jim kopie vyžádaných konkrétních dat ke studiu offline. Novináři si v konkrétní pracovní stanici vybraná data vloží do jakéhosi „nákupního košíku“ a pak jim je knihovník zkopíruje z jeho laptopu na zašifrovaný USB nosič. Tento proces byl jednou z nejnáročnějších částí projektu, a to zejména kvůli mnohým chybám ve zvoleném šifrovacím nástroji VeraCrypt.

Kromě přístupové místnosti technici zřídili i zabezpečené úložiště ve formátu Wiki, kde novináři mohli sdílet svá zjištění z důkazních materiálů. Vybrané části z takto sdílených dat poté technici nahráli do databáze OCCRP Aleph, aby k nim novináři měli přístup odkudkoli.

Velké množství zajímavých dat bylo v kopiích telefonů či v nejrůznějších chatových komunikacích jako WhatsApp, Viber, Threema, SMS a iMessage. Techničtí spolupracovníci investigace.cz vytvořili speciální prohlížeč, v němž se konverzace z jakýchkoli nástrojů rychlých zpráv dají číst v jejich přirozené formě.

Lokalizační data ze zabavených smartphonů technici převedli do speciálně upravené mapy, kterou systém čerpá z internetu. Samotné lokalizační údaje zobrazené na této mapě zůstávají chráněné offline.

Technici použili také takzvanou neuronovou síť, tedy umělou síť inspirovanou lidskými neurony, která se používá pro tvorbu umělé inteligence. Její pomocí procházeli především fotografie (některé složky v získaných datech obsahovaly až 50 000 fotografií), aby mezi fotkami vytipovali ty, jež mohou být obzvlášť zajímavé.

Udělali jsme to dobře?

Americký novinář a držitel Pulitzerovy ceny Stephen Doig jednou řekl, že „datová žurnalistika je společenská věda s deadlinem“. V tomto projektu jsme udělali mnoho rozhodnutí pod velkým časovým tlakem. Na zpracování získaných dat měli technici přibližně osm týdnů. Zvládli to především díky odhodlání vedení OCCRP poskytnout jim veškeré potřebné zázemí. Jen pro fyzický převoz dat jsme museli nakoupit disky za přibližně 122 000 korun. Neznáme grantové fondy, které by takové množství peněz pro obdobný účel poskytly rychle, když je to zrovna zapotřebí.

Při zpětném pohledu bychom mohli říct, že jsme měli věnovat ještě více času vyhledání nejrelevantnějších informací, a to již v rané fázi projektu. Prohledávání dat je velmi pracné a novináři tím stále tráví mnoho času. Obrovské množství získaného materiálu vedlo techniky v začátcích projektu spíše k prohledání celé šíře dat než k zúžení záběru na něco konkrétního. Bylo to v danou chvíli těžké rozhodování, jelikož data nebyla nijak indexovaná a nikdo neměl ponětí, podle jaké logiky jsou uložena.

Náš projekt je v tomto příspěvku popsán jen z malé části. Vůbec se zde nedotýkáme zjištění z dat a pomíjíme velké nasazení a znalosti, s nimiž se při práci s daty potýkali samotní novináři. V projektu, jako je zpřístupnění Kočnerovy knižnice, se nakonec každý stane datovým analytikem.

Závěrem lze zdůraznit, že novináři, zejména ti, kteří se účastní práce s rozsáhlými a citlivými datovými soubory, se mohou hodně naučit od forenzních datových analytiků a z metod policejních vyšetřovatelů. Také soukromý sektor má v oblasti procházení chaotických a objemných zdrojů jistě co nabídnout.

Autor článku: technický tým OCCRP

Autorka úvodní grafiky: Lenka Matoušková

Tašky plné dat

Jak se v tom množství vyznat

Kde hledat to nejdůležitější

Kočnerova kamera v prokurátorově kanceláři

Studovna dat

Udělali jsme to dobře?