Centrum Malach: Most mezi badateli a vývojáři

Tuesday, 28 February 2023 08:29

„Snažíme se být prostředníky mezi programátory a koncovými uživateli archivů. Zprostředkováváme vzpomínky pamětníků, zejména holocaustu, což jsou velice specifická data, s nimiž se musí nakládat citlivě,“ říkají Karin Roginer HofmeisterJiří Kocián, koordinátoři Centra vizuální historie Malach, jenž funguje na Matfyzu už třináct let. Na těchto rozhovorech se totiž trénují počítačové programy pro překlady nejrůznějších jazyků. Využívá jich například výzkumná infastruktura LINDAT

dovnitř 1

Odkud pramení název Centra vizuální historie Malach?

Jiří Kocián: Malach se jmenoval úplně první projekt, který probíhal od roku 2000 a do něhož byl zapojen Ústav formální a aplikované lingvistiky MFF UK a mimo jiné také katedra kybernetiky Fakulty aplikovaných věd Západočeské univerzity. Název vznikl zkrácením spojení Multilingual Access to Large Spoken Archives (strojový přístup k velkým archivům kulturního dědictví), přičemž zkratka svůj obsah i název několikrát měnila, a postupně tak vznikaly další projekty pod názvem Malach.

Co bylo jejich cílem? Proč sídlí archiv vizuální historie, na první pohled veskrze humanitní projekt, právě na Matfyzu?

Jiří Kocián: Jejich smyslem bylo jednak využít zde existující technologie ke strojovému zpracování dat, jež obsahují lidskou řeč, a zajistit tak lepší přístup k vícejazyčným kolekcím audiovizuálních materiálů s přeživšími holocaustu a dalších genocid, které vytvořila organizace USC Shoah Foundation. Druhá rovina pak spočívala v realizaci překladů, kdy byla tato data využívána k vyvíjení softwarů, které měly zajistit překlad mezi češtinou a dalšími jazyky.

Výzkumná infrasktura LINDAT, která vznikla a stále se rozvíjí zde na Matfyzu, zprostředkovává otevřený přístup k jazykovým datům a jednou z jejích technologií je známý překladač, tedy také využívá tato data?

Jiří Kocián: Přesně tak. Díky tomu, že LINDAT je infrastrukturou evropské centrály, v níž jsou tato data uložena (video rozhovory s přeživšími holokaust a dalšími lidmi, kteří mohou nějakým způsobem svědčit o genocidách či masovém násilí), tak všichni, kdo jsou v této infrastruktuře badatelsky zapojeni, mohou tato data za příslušných podmínek využívat k vlastnímu výzkumu, vývoji softwarů a podobně. My s kolegy z Malachu se pak následně staráme o společenskovědní zpřístupnění těchto materiálů (vzpomínek pamětníků) veřejnosti.

Jak došlo k tomu, že právě audiovizuální vzpomínky přeživších, zejména holokaustu, se staly zdrojem dat, díky kterým se mohou vyvíjet strojové překladače a podobně?

dovnitř 2Karin Roginer Hofmeister: Nutno říct, že vzpomínky přeživších tvoří pouze část dat, s nimiž LINDAT pracuje nebo je nějakým způsobem sdružuje. Nicméně skutečnost, že má LINDAT tato data k dispozici pro další vývoj technických řešení, a že zároveň vznikl Malach, který je zpřístupňuje badatelům a veřejnosti, je v první řadě výsledkem spolupráce ÚFALu s USC Shoah Foundation.

Když jsem pátrala po začátku spolupráce ÚFALu s organizací USC Shoah Foundation, zjistila jsem, že jejím cílem bylo "rozpoznávání řeči a vícejazyčné extrakce informací". Můžete to vysvětlit?

Karin Roginer Hofmeister: Představte si, že v Archivu vizuální historie, který spravuje USC Shoah Foundation, je uloženo 55 tisíc rozhovorů v různých jazycích (konkrétně jich je 43). A jejich počet se stále rozšiřuje s tím, jak se přidávají nové kolekce. Prioritou je, aby byly popsány v takovém jazyce, který je strojově čitelný.

Vzájemný překlad?

Jiří Kocián: Ano, to je jedním z cílů. Extrakce informací je další nadstavba, která (jako jakákoli technologie) vyžaduje strojově čitelnou podobu jazyka. Zásadní je mít co nejširší možnosti automatického přepisu z různých jazyků, na jehož základě pak všechny technologie fungují.

Popište mi jednotlivé kroky.

dovnitř 3Jiří Kocián: Vychází se z takzvané formální lingvistiky, která ostatně stojí už v názvu ústavu, neboli strukturální systematické analýzy jazyka. Díky ní je pak možné generovat softwary, jež dokáží jazyk reprezentovat, pokročilým způsobem v něm hledat deklinace, konjugace v různých jazycích tak, aby poskytovaly optimální výsledky vyhledávání. Programy v daném jazyce umí rozpoznat nejen slova v základním tvaru, ale také jmenné entity typu osobní jména, geografické termíny nebo i delší jazykové úseky. V praxi to pak vede k takzvanému vzdálenému čtení.

Co to znamená?

Jiří Kocián: Umožní vám si materiál, který obsahuje třeba 130 tisíc hodin videozáznamů, prohlédnout na dálku. Software identifikuje části, které vás mohou zajímat, ba dokonce z nich vytvoří příběh, narativ.

Už chápu, proč je archiv audiovizuální historie právě na Matfyzu – protože právě zde jsou tyto nástroje k dispozici.

Karin Roginer Hofmeister: Nejen nástroje, ale také infrastruktura a technické zázemí. A není to tak, že by zde všechno končilo – nové technologie zprostředkováváme našim uživatelům a zároveň nabízíme know-how dalším pracovištím. Existuje spousta malých institucí, které mají své materiály (týkající se holokaustu nebo historických událostí tohoto typu), ale nemají zkušenost a každodenní kontakt s technologiemi, jež se neustále vyvíjejí. Úlohou Malachu je tedy působit jako prostředník a jakýsi překladatel mezi programátory a cílovými uživateli či správci archivů.

Jiří Kocián: Už osmým rokem sedám za tímto stolem a prostor, i ten mentální, do něhož jsem tehdy vstoupil, je dnes úplně jiný – pole možností se tak ohromně rozšířilo, posunulo. Vždycky říkám: Vždyť už používáme všechny tyto nástroje v soukromí i v každodenním běžném životě, nebojme se je využívat i ve výzkumu.

dovnitř 4dovnitř 5

Oba jste humanitního zaměření, absolvovali jste Institut mezinárodních studií FSV UK. Je těžké pro člověka bez „matematického myšlení“ na Matfyzu zapadnout a plně využít potenciálu, který fakulta nabízí?

Jiří Kocián: Samozřejmě narážíme na svoje znalostní limity, nicméně co se týká spolupráce uvnitř ústavu, osobně jsem nikdy na žádný problém nenarazil. Máme tady celou řadu kolegů, kteří s těmito materiály léta pracují, pořádáme semináře pro studenty Matfyzu, ukazujeme jim „ten most uprostřed“ – k čemu jim jejich studium může být.

Karin Roginer Hofmeister: Vedle toho k nám chodí exkurze z humanitních fakult, jejichž studenty učíme s archivem pracovat a efektivně využívat nástroje, jež jsou zde k dispozici. Data, s nimiž zde operujeme, jsou totiž velice specifická, ať už z hlediska badatelské metodologie nebo etiky.

Vycházíte z reálných osobních příběhů konkrétních lidí.

Karin Roginer Hofmeister: Přesně tak, a na to je nutné upozorňovat i vývojáře. Bavíme se o hologramech, avatarech přeživších a je velká otázka, do jaké míry je etické konkrétního člověka, jenž prožil holocaust či jinou genocidu a masové násilí, takovýmto způsobem zobrazovat.

Jiří Kocián: Problémem je také algoritmizace: Jak ochránit data? Nedávno jsem s kolegy z Berlína řešil, jak využít trénovací data, a přitom algoritmus pro překlad mezi češtinou a němčinou zbavit té stopy, že se trénoval na osobních datech. A obráceně: Je algoritmus, jenž byl původně trénován na jiných slovech, dostatečně spolehlivým nástrojem pro reprezentování něčeho tak citlivého jako je paměť holocaustu?

Na co jste za těch třináct let fungování Centra vizuální historie Malach nejvíce pyšní?

Karin Roginer Hofmeister: Na kolekci Zaveštanje, jež obsahuje přes sto rozhovorů s dětskými přeživšími koncentračních táborů a perzekuce v Nezávislém státě Chorvatsko za druhé světové války. Podařilo se nám kontaktovat její tvůrce, kteří část těchto materiálů využili pro dokumentární film a zbytek měli „v šuplíku“ v Bělehradě. Po poměrně složitém vyjednávání se nám podařilo tuto sbírku rozhovorů získat a uložit na serverech Matfyzu. Zpřístupnili jsme prvních dvacet rozhovorů, jež jsou dostupné na pracovních stanicích Malachu, a postupně chceme přidávat další. Je to ovšem běh na dlouhou trať, zejména kvůli jazykovým omezením.

dovnitř 6

Jací jsou běžní návštěvníci vašeho centra?

Karin Roginer Hofmeister: Jsou velice různorodí. Jak již bylo řečeno, chodí k nám vysokoškoláci i středoškolské exkurze, badatelé, ale také jednotlivci z osobního zájmu. Nedávno jsem zde zaškolovala v práci s vyhledávacím systémem paní, která se snaží sepsat rodinnou historii. Někdo nám pošle e-mail s dotazem a my pro něj připravíme rešerši materiálů. Ale přichází i lidé bez předchozího upozornění a rovnou s nimi hledáme cesty, jak se mohou dobrat co nejrelevantnějšího výsledku. Nepátráme pouze přes jména, ale i přes geografické lokace. Pro snazší orientaci badatelů jsme také vytvořili uživatelské rozhraní, které integruje vyhledávání ve světových digitálních archivech audiovizuální povahy (VHA USC Shoah Foundation, Fortunoff a další) a zároveň v „našich“ datech, jakými je například kolekce Zaveštanje.

Co máte v plánu? Kam byste ještě rádi Malach posunuli?

Karin Roginer Hofmeister: Cest je několik a velmi často je probíráme. Rozhodně bychom se chtěli dále zaměřovat na data z prostoru bývalé Jugoslávie, kde vidíme velký potenciál, jelikož nejsou běžně dostupná. Stávající kolekci Zaveštanje bychom rádi rozšířili například o materiály týkající se války v Jugoslávii v devadesátých letech.

Chceme rozvíjet i edukační aktivity. Díky grantu od organizace Claims Conference působím na Univerzitě Karlově vedle práce v Malachu jako lektorka holocaustových studií. V rámci této grantové spolupráce postupně vedu na Fakultě sociálních věd UK šest kurzů, které se týkají se holocaustu a dalších případů masového násilí a genocid. Snažím se do nich do implementovat své zkušenosti z Malachu a s technologiemi, které lze využít v badatelské činnosti.

Jiří Kocián: Třetím pilířem je náš vlastní výzkum, kdy se na základě naší dlouholeté práce s materiály z rozhovorů jakožto primárním zdrojem informací a historického bádání snažíme generovat metodiku výuky – jak s těmito nástroji mohou pracovat například učitelé dějepisu a jak do tématu holocaustu zapojovat studenty, aby si z toho opravdu něco odnesli. Jak zvládnout ty, které to třeba nezajímá?

Karin Roginer Hofmeister: Není to jen záležitost středoškoláků. I na vysoké škole se setkáváme s tím, že studenti mají pocit, že už toho vědí o holocaustu dost. Snažíme se jim ukázat, že holokaust není nutné brát pouze jako historickou událost, ale také jako určitý objekt vzpomínání, jako symbol, skrze nějž lze porozumět různým současným problémům nebo dění po druhé světové válce. Může to mít přesah do psychologie, sociologie.

Plánujete rozšířit archiv i o nejnovější dějiny – o svědectví lidí, kteří zažili současnou válku na Ukrajině?

Jiří Kocián: Rozhodně, je to pro nás velká výzva. Už teď probíhá celá řada projektů. Jsme v kontaktu s jednotlivci i institucemi, kteří tato svědectví sbírají. Jedna z našich badatelek, ukrajinská historička, u nás strávila půlroku. Jsme připraveni jim poskytnout infrastrukturu, technologie i metodiku k tomu, jak co možná nejlépe a zároveň eticky tyto materiály uchovat a dál distribuovat.

dovnitř 7

PhDr. Jiří Kocián, Ph. D.
Koordinátor Centra vizuální historie Malach od roku 2016. Absolvoval obor mezinárodní teritoriální studia se zaměřením na východní a jihovýchodní Evropu na Fakultě sociálních věd Univerzity Karlovy. Jeho výzkumné aktivity v CVHM se věnují především problematice dějin židů ve středovýchodní a jihovýchodní Evropě, otázce konstruování narativů identit a jejich společenské i politické reflexe. Zároveň se v oblasti takzvaných Digital Humanities zabývá otázkou vývoje a implementace softwarových nástrojů pro společenskovědní výzkum.
PhDr. Karin Roginer Hofmeister, Ph. D.
Koordinátor Centra vizuální historie Malach od roku 2020. V roce 2022 zároveň získala grant Claims Conference a působí na Karlově univerzitě jako lektorka holokaustových studií. Absolvovala doktorský program mezinárodní teritoriální studia se zaměřením na východní a jihovýchodní Evropu na Fakultě sociálních věd Univerzity Karlovy. Její výzkumné aktivity v CVHM se vztahují především k problematice dějin židů v jihovýchodní Evropě, otázce konstruování historických narativů, kolektivních identit a komunit paměti. Pracuje na získávání a zpracování nových kolekcí orální historie, které se vztahují k regionu západního Balkánu.
Author:
Photo: Jan Kolský