Jako forenzní fonetik slyšíte i věci, které je lepší nevědět

úterý, 15. březen 2022 07:30

Radek Skarnitzl je ředitel Fonetického ústavu Filozofické fakulty Univerzity Karlovy a také forenzní fonetik, což je povolání, které by klidně zapadlo do detektivního románu. Často si jej totiž k vyšetřování zvou i orgány činné v trestním řízení. Během našeho povídání magazínu Forum mimo jiné prozradil, co vše dokáže z hlasu „vyčíst“, jak můžeme prostřednictvím svého řečového projevu působit na ostatní jako kompetentní a sympatičtí mluvčí nebo proč je odhalování lži neetické. „Hlas rozhodně trénovat lze,“ říká Skarnitzl.

HYN29490

Fonetika se zabývá zvukovou stránkou jazyka. Je něco, co o naší mateřštině z tohoto pohledu ještě nevíme?

O češtině toho víme samozřejmě hodně, ale stále ne všechno. Například nám ještě není úplně jasné, jakým způsobem vlastně vyslovujeme české „ř“. Ve starých popisech češtiny ze třicátých, čtyřicátých let se říká, že jej vytváříme na stejném místě jako „z“. Nepřímé důkazy ale naznačují, že by se mohlo vytvářet spíše podobně jako „ž“, tedy o trochu víc vzadu. Například děti nebo cizinci často „ř“ nahrazují za „ž“, nikoli „z“. I šum je z akustického hlediska podobný spíš „ž“ než „z“.

Jak něco takového vlastně můžeme prokazatelně zjistit ?

Máme metodu, při níž se mluvčímu vyrobí na míru taková rovnátka osazená elektrodami, které detekují, kde na paterní klenbě se při mluvení dotkl jazyk. Doufali jsme, že pomocí této metody tuhle otázku rozlouskneme, ale bohužel se to nepodařilo. Přístroj, zvaný elektropalatograf, totiž má rozlišení deset milisekund a nám se během měření zkrátka nepovedlo trefit přímo do tohoto okamžiku – zařízení nám ve chvíli, kdy mluvčí říkal „ř“, bohužel nezachytilo okamžik nejsilnějšího kontaktu, který by nám řekl, kde hlásku „ř“ mluvčí vytvořil. Musíme tedy počkat, až se dostaneme k přesnější metodě.

Co je ještě v české fonetice „záhadou“?

Stále například nemáme úplně jasno v českém přízvuku. Obecně se říká, že přízvuk klademe na první slabiku víceslabičných slov a jednoslabičná slova se většinou takzvaně přiklánějí ke slovu předcházejícímu. Ve větě „Zítra bych chtěl pracovat“ tak budou dva přízvuky, na prvním a posledním slově, a slova „bych chtěl“ utvoří jednu jednotku se slovem „zítra“. Oproti tomu ve větě „Zítra budu muset pracovat“ by podle uvedeného pravidla měly být čtyři přízvučné slabiky, na každém slově. V běžně mluvené češtině se ale často setkáme jen se dvěma přízvuky, opět na prvním a posledním slově, a „budu muset“ se také přikloní ke slovu „zítra“. Jak toto přiklánění víceslabičných slov funguje, jestli je nějak omezeno například mluvním stylem či tempem – to jsou otázky, na které ještě odpověď nemáme. A když se na to podíváme z hlediska aplikace, bylo by užitečné zjistit, jestli a nakolik by zapojení tohoto aspektu napomohlo přirozenosti řečové syntézy.

Někdo dokáže svůj hlas zamaskovat k nepoznání

HYN29398.jpgČím se aktuálně zabýváte ve Fonetickém ústavu?

Řešíme zajímavý projekt, jehož cílem je komplexně popsat prozodické fráze v češtině v různých žánrech. Kromě toho, jak fráze vypadají z hlediska fonetického a akustického a jak jsou různé akustické vlastnosti důležité pro vnímání frázové hranice, nás bude zajímat i syntaktická a sémantická analýza. Už v předchozí otázce jsem zmínil řečovou syntézu: i v tomto projektu budeme ve spolupráci s kolegy z Plzně zjištěné vztahy implementovat do řečové syntézy a testovat jejich dopad na vnímání přirozenosti.

Mimoto mají moji doktorandi projekt START, který se týká falšování hlasové identity. V jedné jeho části jde o zkoumání různých typů neshod, například zda rozeznáte něčí hlas, když ho jednou slyšíte česky a podruhé v cizím jazyce či po nějakém časovém odstupu. Další část projektu se týká nejrůznějších změn hlasu. Například nás zajímá, co dělají Češi se svým hlasem, když chtějí znít, jako by česky mluvili s ruským přízvukem. Projekt zahrnuje i cílené modifikace, kdy po mluvčích chceme, aby dvouminutový text přečetli normálně a pak s různými nastaveními: se zaokrouhlenými rty, chraplavým hlasem, jako kdyby mluvili nosem a podobně. Pro tuto úlohu samozřejmě využíváme hlavně studenty fonetiky, protože udržet cílené nastavení dvě minuty vůbec není jednoduché! U všech těchto úloh nás pak bude zajímat, zda mluvčího i přes tyto různé změny rozpoznají posluchači a také automatický rozpoznávač mluvčích. Po prvních náznacích se zatím ukazuje, že i pro nejnovější rozpoznávače představují některé z uvedených změn oříšek. Posluchače jsme zatím netestovali, ale už z dřívější studie víme, že někteří mluvčí svůj hlas dokážou zamaskovat opravdu k nepoznání.

Když jsme u modifikací hlasu: jak vlastně pracují takoví hlasoví imitátoři?

I ti jsou součástí našeho bádání v projektu START. U nich nás zajímá nejen fonetická stránka, tedy jestli se jim skutečně daří znít tak, jako osoba, kterou imitují, ale i ta psychologická. Zajímá nás, jak to imitátor dělá, čeho si při učení nového hlasu všímá, jak se jej učí. Podrobnější psychologický rozbor je ještě před námi, ale minimálně Petr Jablonský k imitování přistupuje velmi intuitivně. Hlas, který se učí, bere jako celek, jako zvukový i vizuální komplex, a musí se do imitovaného člověka vžít včetně jeho gestikulace nebo postavení těla, jak to ostatně známe z jeho různých vystoupení. Nějaké detaily, které v jeho řeči budeme analyzovat – výslovnost jednotlivých hlásek, melodické chování, práci s dechem a podobně – vědomě vůbec neřeší. Je dokonce možné, že kdyby se hlas učil takto po částech, po jednotlivých řečových a hlasových aspektech, tak by to ani nefungovalo a nikdy by se takovým způsobem hlas nenaučil.

Způsob, jakým mluvíme, dokáže výrazně ovlivnit, jak nás lidé vnímají

Co dalšího vás jako fonetika zajímá?

Obecně nás hodně zajímá, jak svým řečovým projevem působíme na druhé. Každý totiž vnímáme, jak lidé mluví, jakou mají intonaci, tempo, rytmus, barvu hlasu, a samozřejmě nejen na základě toho si na ně podvědomě vytváříme názor. Způsob, jakým mluvíme, dokáže velmi výrazně ovlivnit, jak nás lidé vnímají, zda jsme jim sympatičtí, jestli působíme kompetentně, inteligentně, nebo naopak.

Mohu svůj hlas nějakým způsobem trénovat tak, abych na lidi působila lépe a zároveň zněla přirozeně?

Ano, hlas rozhodně trénovat lze. Spolupracuji například s kolegou z Dánska, který vytvořil software, pomocí něhož školí budoucí manažery, aby jejich projev zněl lépe. V celkovém dojmu na posluchače hraje mnohem větší roli takzvaná prozodie, tedy melodie, frázování nebo rytmus, než způsob, jakým vyslovujeme jednotlivé hlásky. Právě na prozodii se tento nástroj zaměřuje.

HYN29441

To je vlastně docela těžké, protože čeština je oproti jiným jazyků, třeba angličtině, docela monotónní…

To ano, jazyky se ve způsobu využívání intonace – například právě v běžném intonačním rozpětí – mohou hodně lišit. Ale i v rámci jednoho jazyka můžeme pozorovat rozdíly. Asi všichni známe z nudných přednášek mluvčí, kteří v podstatě celou dobu mluví na stejné hladině. U mě takovýto projev jedné pedagožky vedl k nechuti k jejímu předmětu – dávno předtím, než jsem věděl, co to vůbec je fonetika. Podle hlasového a řečového projevu opravdu posuzujeme druhé osoby všichni.

Jaká doporučení byste tedy poskytl někomu, kdo chce svůj projev zlepšit?

Jak jsem zmínil, je to právě prozodie, na kterou bychom si jako mluvčí měli dávat pozor – i proto, že je to dosažitelné, mnohem snadnější než v dospělosti například odstranit řečovou vadu. Měli bychom náš projev více členit: používat relativně krátké fráze, a v rámci nich trochu rozšířit intonační rozpětí, více takzvaně zpívat, ale nepřehánět to. Obecně je klíčovým pojmem variabilita. Nejen na úrovni melodické, ale i na úrovni dynamiky či tempa – je přínosné někdy hlas trochu ztišit nebo v okamžiku, kdy říkám něco důležitého, zpomalit. Důležitý je také rytmus, který vnímáme podvědomě.

Náš mozek, zjednodušeně řečeno, funguje tak, že předvídá, jak rychle bude mluvčí mluvit, a mozkové vlny se synchronizují s řečovým signálem. Pokud mluvčí tomuto očekávání vyhoví, to znamená, pokud k této synchronizaci dojde, vnímáme projev mluvčího snadno. Kdybych ale rytmus různě měnil, kdyby moje tempo nepředvídatelně kolísalo, bude to pro posluchačův mozek náročné na zpracování: řečové signály nebudou s těmi mozkovými synchronizovány a porozumění bude vyžadovat více energie.

Protože vynakládat více energie nechceme, připisujeme takovému mluvčímu podvědomě negativní vlastnosti – může nám přijít nesympatický a nebudeme s ním chtít spolupracovat. Když to obrátím v doporučení, měla by naše mluva hladce plynout. Řečeno ještě trochu jinak, výše zmíněná variabilita by měla být předvídatelná, tedy vyplývající z obsahu promluvy.

Už tedy víme, jak pracovat s hlasem, aby nás posluchači dobře přijímali. Jde ale nějakým způsobem zvrátit stárnutí hlasu ?

Hlasivky jsou sval, takže ho do jisté míry můžeme trénovat stejně jako ostatní svaly. Zároveň ale dochází k běžným fyziologickým procesům a některé změny zvrátit nelze, hlasivky prostě tuhnou, protože se mění struktura jejich vaziva i svalového podkladu, hrtanové chrupavky kalcifikují a osifikují. Zároveň se mění hormonální rovnováha v těle, takže mužské hlasy jdou ve vyšším věku trochu výš, ženské zase níž.

Když už se bavíme o trénování hlasu. Je vůbec možné, abychom při osvojování si cizího jazyka v dospělosti zněli k nerozeznání od rodilého mluvčího?

Možné to je, ale je to velice náročné. Dřív se uvažovalo o tom, že schopnost naučit se jazyk souvisí se zráním mozku a v okamžiku, kdy dozraje, v období kolem puberty, už se cizí jazyk nenaučí. Dnes už ale víme, že toto neplatí, jsou mluvčí, kteří se i v dospělém věku jsou schopni naučit výslovnost cizího jazyka na úrovni rodilého mluvčího. Jsou to ale opravdu výjimky, pro něco takového je potřebná souhra velmi silné motivace a také talentu.

Pomáhá v tomto směru, když má mluvčí hudební sluch?

Neexistují žádné experimentální studie, které by toto potvrzovaly. Bylo by pro ně totiž potřeba mít dvě skupiny, mezi kterými by byl rozdíl pouze v tom, že jedna má hudební sluch a druhá nemá. Něčeho takového ale není reálné dosáhnout. Korelační studie nám ovšem ukazují, že to spolu souvisí. Lidé, kteří mají hudební sluch, opravdu bývají ve výslovnosti cizího jazyka lepší. Uchazeči o fonetiku se často ptají, jestli k jejímu studiu potřebují hudební sluch. Odpovídám, že podmínkou rozhodně není, ale určitě neuškodí.

Ještě bych se ale vrátil k předchozí otázce a výslovnosti na úrovni rodilého mluvčího. To je taková často vzývaná modla, ale dnes se v didaktice výslovnosti za optimální cíl považuje mít výslovnost takovou, která nijak nenarušuje schopnost mluvčího komunikovat. Hovoříme o výslovnosti, která je „pohodlně srozumitelná“ – mluvčímu tedy rozumíme a nemusíme se u toho výrazně namáhat.

HYN29226

Fonetici by se detekci lži vůbec neměli věnovat

Co vše jako fonetik z hlasu poznáte? A poznal byste, že někdo lže, lépe než laik?

Nejsem si jistý, jestli jako fonetici dokážeme poznat z hlasu o tolik více než kdokoli jiný. Souvisí to s tím, co jsem říkal před chvíli: řečový projev druhých vnímáme a reagujeme na něj podvědomě všichni. Ten rozdíl spočívá v tom, že fonetik to umí přenést do vědomí, umí to pojmenovat a popsat. Můžeme si představit, že vám bude nějaký mluvčí nesympatický, aniž byste věděla proč. Fonetik bude vědět, že za tím může být třeba zvýšený hrtan mluvčího, vyšší melodická hladina, než by pro něj bylo optimální, a s tím související napjatý a „skřípavý“ hlas. Určitě tedy platí, že jako fonetik jsem ke zvuku řeči a hlasu daleko vnímavější.

Co se týče odhalování lži, to je samozřejmě velmi lákavé téma, ale musím vás zklamat. Mezinárodní asociace pro forenzní fonetiku a akustiku (IAFPA) svým členům snahu o detekci lži explicitně zapovídá, protože prostě nefunguje. Fonetici by se detekci lži vůbec věnovat neměli; považuje se to za neetické.

Co ale takový detektor lži?

Nástroje, které existují, samozřejmě podléhají obchodnímu tajemství. Ačkoli vám tedy nikdo přesně neřekne, na základě čeho jeho detektor funguje, není obtížné to aspoň částečně odhadnout. Problém je v tom, že takový software může označit mluvčího za potenciálního podvodníka na základě toho, že koktá nebo se mu třese hlas zimou. Jinými slovy hodnoty akustických parametrů, které se vyskytují u osob neříkajících pravdu, se překrývají s hodnotami některých členů běžné populace. Detektory lži jsou proto považovány za diskriminující. Různé výzkumy navíc naznačují, že spolehlivost jejich závěrů je přinejmenším sporná.

Jste také forenzním fonetikem. Co vlastně taková práce obnáší?

Nejběžnější úloha je identifikace mluvčího. Dostanu tedy například nahrávku mluvčího ze soudního přelíčení jako srovnávací materiál a pak nahrávku pocházející z trestné činnosti, třeba anonymní telefonát. Úkolem je porovnat pravděpodobnost, že nahrávky pocházejí od téhož mluvčího na jedné straně a že pocházejí od jiného mluvčího z podobné populační skupiny na straně druhé. Poměrně často se dostávám i k případům, kdy je úkolem poznat, zda s nahrávkou bylo manipulováno. To je v dnešní době opravdu složitý úkol. Se studenty forenzní fonetiky manipulace zvukového signálu zkoušíme a změnit nahrávku, aniž by to bylo poznat, není nijak náročné. I tak jsem se ale setkal s nahrávkami, kde pravděpodobně nějaká manipulace rozeznatelná byla. Velice často ale případ nezbývá než uzavřít s tím, že se může jednat i o nějakou momentální technickou nedokonalost vzniklou například při záznamu.

Jak jste se vlastně k forenzní fonetice dostal?

Lindbergh baby posterNa počátku byl odstrašující příklad. Dostal se mi do rukou posudek soudního znalce, který srovnával hlasy dvou mluvčích. Průměrná základní frekvence hlasu, laicky výška hlasu, jednoho mluvčího byla 106 Hz a druhého 102 Hz. A na základě pouze tohoto údaje znalec uzavřel, že se jedná o téhož mluvčího. To mi připadalo divné, protože tyto hodnoty odpovídají téměř průměrné výšce hlasu, kterou jen v Praze budou mít desetitisíce mužů. Proto jsem začal zjišťovat víc, stal se členem organizace IAFPA, získali jsme s kolegy a studenty několik grantových projektů spojených s identifikací mluvčího a postupem času jsem se sám stal soudním znalcem.

Fonetika i u slavného Lindberghova případu

Vím, že existuje jeden významný případ, který se týkal forenzní fonetiky a datuje se až do roku 1932. Mohl byste jej krátce představit?

Ano, to je případ, který se týkal Charlese Lindbergha, který v roce 1927 jako první sám přeletěl Atlantik a který byl americkou celebritou. Jeho malý syn byl v roce 1932 unesen, únosce po telefonu požadoval výkupné, které na hřbitově předal prostředník a Lindbergh seděl v autě.

Pachatel tehdy zvolal několik slov a Lindbergh u soudu, který se konal po dvou a půl letech, tvrdil, že si hlas pamatuje, a jako pachatele určil obviněného Bruno Hauptmanna. Ten byl mimo jiné díky tomuto svědectví uznán vinným. Lindberghovo svědectví poměrně brzy zpochybnila psycholožka Frances McGehee, protože považovala identifikaci pachatele po více než dvou letech na základě několika slov zaslechnutých z poměrně velké dálky za přinejmenším problematickou. Případ tak vedl k prvnímu experimentu zaměřenému na identifikaci mluvčích podle hlasu, kdy McGehee pouštěla studentům nahrávku a pak je s různými časovými odstupy nechala z pěti hlasů vybrat ten, který slyšeli. Již druhý den přesnost klesla na 83 procent, po dvou týdnech na 68 procent a po pěti měsících byla dokonce pod úrovní náhody.

HYN29443HYN29471

Jakou zásadní roli hrála forenzní fonetika v českých případech?

Odposlechy a následná identifikace mluvčích a luštění obsahu určitě hrály roli v kauze (politického podnikatele) Ivo Rittiga. Odposlechy vystupovaly i v případu (exministra a poslance) Davida Ratha. Někdy tyto analýzy nebývají úplně příjemnou prací, jde o věci, které byste radši neslyšela a nevěděla... Při posuzování nahrávek je však také důležité vědět, kdy říct ne. Někdy je totiž nahrávka tak nekvalitní, krátká či tichá, že s tím zkrátka nic neudělám, a vynášet jakékoli závěry by bylo nezodpovědné.

Dokážete pachatele identifikovat pouze podle hlasu?

Krátká odpověď je: ano. Čtenáři ale bude nejspíš zřejmé i z předchozích odpovědí, že delší odpověď bude obsahovat spoustu „ale“. Jak už jsem naznačil, nahrávky musí být dostatečně dlouhé, takže musí obsahovat dost řečového materiálu od cílových mluvčích. Nahrávky musí splňovat i kvalitativní požadavky: řeč by měla být dostatečně silná ve vztahu ke zvukovému pozadí, což z druhého pohledu znamená, že by nahrávka neměla obsahovat příliš silné ruchy, hlas cílového mluvčího by se neměl překrývat s jinými hlasy a podobně. Ani kvalitní a dostatečně dlouhé nahrávky ale nejsou zárukou, že hlasy bude možné spolehlivě srovnávat. Důležitým aspektem je totiž i typičnost hlasu.

Není jistě překvapivé, že snadněji můžeme vynést silnější závěr, když je jeden ze srovnávaných mluvčích v nějakém parametru výjimečný. Naopak pokud srovnáváme dva zcela průměrné mluvčí, kteří v jednotlivých parametrech vykazují velmi podobné hodnoty, neposkytuje taková podobnost silný důkaz ve prospěch identity. Při srovnávání hlasů je třeba vždy zohlednit jak podobnost, tak typičnost pozorovaných rozdílů. Proto bychom se měli vyjádřit ke dvěma pravděpodobnostem, jak jsem zmínil před chvílí: pravděpodobnost, že nahrávky pocházejí od téhož mluvčího, se vztahuje k podobnosti, zatímco pravděpodobnost, že pocházejí od jiného mluvčího z podobné populační skupiny, odráží typičnost.

Jak tedy identifikace mluvčího probíhá, když možná je?

HYN29563Začínám důkladnou poslechovou analýzou, cílového mluvčího musím co nejlépe „naposlouchat“. Zpočátku jde o holistický poslech, vnímám tedy hlas jako celek. Pak přichází na řadu analytický poslech, při němž se postupně zaměřuji na jednotlivé řečové a hlasové parametry. Poslechová analýza může zároveň identifikovat parametry, které se následně stanou předmětem akustické analýzy.

Možnosti akustické analýzy jsou výrazně ovlivněny vlastnostmi zkoumaných nahrávek, ale ideálně se kromě kvantifikace poslechem zjištěných rozdílů zaměří na nejrůznější aspekty řeči – od samohlásek a souhlásek přes melodické aspekty až po parametry týkající se kvality hlasu.

Kolik je vlastně v Česku forenzních fonetiků?

Pokud máte na mysli soudních znalců v oboru fonoskopie – dodnes se bohužel používá tento zcela nesmyslný termín pocházející ze sovětské tradice – tak tři včetně mě. Je to situace dost tristní a doufám, že naše řady brzy obohatí někdo z mých doktorandů a bude nás víc.

Doc. Mgr. Radek Skarnitzl, Ph. D. 
Ředitel Fonetického ústavu Filozofické fakulty Univerzity Karlovy. Mezi hlavní oblasti jeho odborného zájmu patří možnosti identifikace mluvčího z řečového signálu a cizinecký přízvuk a jeho sociální a psychologické dopady, zabývá se ale i zvukovými vlastnostmi češtiny a angličtiny obecně a podílel se na vylepšování syntézy češtiny. V současnosti je soudním znalcem se specializací na identifikaci mluvčího a analýzu zvukového signálu. 
Autor: Sabina Ali
Foto: Hynek Glos, Wikimedia

Sdílejte článek: