Panevová: Lingvistika už je na Matfyzu samozřejmostí

velikost písma zmenšit velikost písma zvětšit velikost písma

pondělí, 21. červen 2021 07:07

Jarmila Panevová chtěla být původně učitelkou. Od pedagogické dráhy ji ale odlákala práce na strojovém překladu uplatňovaná v Centru numerické matematiky, které na Matfyzu v 60. letech vznikalo. Z oblasti jazyka si ke svému výzkumu vybrala syntax, tedy větnou stavbu. „V rámci popisu gramatiky je pro mě syntax nejpřitažlivější a nejzajímavější, protože v ní jde o struktury a jejich generalizace, je také z hlediska zpracování jazyka nejméně popsaná,“ zdůvodňuje lingvistka, jež na MFF UK působí už šedesát let.

Vaše dráha lingvistky započala na Filozofické fakultě UK. Jak jste se dostala na Matfyz?

Celé to bylo dílo náhody. Původní zdroj zájmu sice vznikl na Filozofické fakultě, ale na Matfyzu se v 60. letech začal ustavovat obor, pro nějž se dnes užívá termín počítačová lingvistika (obor aplikované lingvistiky věnující se studiu přirozeného jazyka s využitím výpočetní techniky, pozn. red.), tedy zcela nový výzkumný směr. V této souvislosti na Matfyzu vnikalo Centrum numerické matematiky, kde se zapojení lingvistických metod do nového výzkumného programu přímo nabízelo. Jako studentka jsem se podílela na tématech vhodných pro strojové aplikace v rámci malé skupiny výzkumníků vedených profesorem Petrem Sgallem a po skončení studií jsem dostala nabídku, abych v rámci této skupiny nastoupila na Matfyz.

Proč jste si vybrala zrovna dráhu lingvistky? Součástí studia české i ruské filologie je i literatura, mohla z vás být tedy třeba literární vědkyně.

Na Filozofickou fakultu UK jsem přišla s nadšením češtináře; milovala jsem českou, ale i klasickou ruskou literaturu. Můj úmysl tedy původně byl, že budu učitelkou v nějakém menším městě. A proč jsem si vybrala lingvistiku? Ze studií mám v paměti jeden literární seminář s panem docentem Jelínkem, který nám uložil, abychom charakterizovali báseň Konstantina Biebla Nový Ikaros. Jedna spolužačka k tématu přednesla referát a následně k básni každý z nás něco řekl. Vedoucí semináře k tomu zaujal značně kritické stanovisko. Uzavřel to konstatováním, že takové hodnocení jako my, celý kroužek češtinářů, by zvládl každý student stavařiny a ten umí navíc postavit most... Následně bouchl dveřmi a posluchárnu opustil. To se do mne hluboce vrylo a bylo mi jasné, že tudy moje cesta nepovede. V té době právě vznikal seminář Petra Sgalla o strojovém překladu. Tam se mi zdálo, že úkoly, které jsme v rámci semináře plnili, byly velmi konkrétní a výsledky dobře kontrolovatelné. Bylo to pro mě tedy něco, kde se dalo nalézt praktické uplatnění.

Tím jste tedy definitivně přešla z potenciální pedagogické dráhy k lingvistice?

Když jsem končila studium na Filozofické fakultě, bylo mi nabídnuto, abych nastoupila prozatímně jako laborantka do Oddělení strojového překladu na FF UK. A já jsem si tehdy řekla, že z pozice pedagoga na střední škole by má cesta zpět na Univerzitu Karlovu byla asi složitá, zatímco naopak, tedy z univerzity na střední školu, by to mohlo být schůdnější. Tak jsem se rozhodla, že budu dělat lingvistiku a zůstanu na univerzitě; tehdy mě ještě zdaleka nenapadlo, že i na pedagogické činnosti se v tomto rámci za pár let budu moct aktivně podílet.

Aktuálně působíte na Ústavu formální a aplikované lingvistiky MFF UK. Čemu se zde věnujete?

U nás v ústavu mají výzkumníci skutečně široké spektrum témat, kterým se věnují. Jde například o strojový překlad z jazyka do jazyka či tak zvané Universal Dependencies (primárním cílem projektu je dosáhnout mezijazykové konzistence anotací, a přitom v případě potřeby stále povolit rozšíření specifická pro daný jazyk, pozn. red.), což je komplexní mezinárodní projekt, v němž je zařazeno asi sedmdesát jazyků. Díky tomu je strojový překlad z jazyka do jazyka snadněji aplikovatelný. Těch ústavních témat je ale nepřeberně, sama ztrácím přehled o tom, co všechno se v ÚFALu dělá. V naší lingvistické části, kde jsem já a moje bývalé žačky a doktorandky, dnes už kolegyně, se zabýváme tématy, jako je automatické odvozování slov z téhož základu, formální charakteristiky slov ve strojově čitelném slovníku nebo striktně formulované syntaktické podmínky pro uplatnění infinitivních, zvratných a recipročních konstrukcí.

Dnes už je situace taková, že celá řada firem a institucí, které nějakým způsobem pracují s jazykem, musí zahrnout lingvistická hlediska. Koneckonců naši doktorandi často odcházejí právě do firem. A to i do těch velkých, jako je Google či IBM a podobně. Takže uplatnění našich absolventů je opravdu široké.

Ústav formální a aplikované lingvistiky čili ÚFAL sídlí v budově MFF UK na Malostranském náměstí.

Je velký rozdíl mezi tím, co se v lingvistice děje na Filozofické fakultě, a tím, co se děje u vás na Matfyzu?

Ze začátku se projevovaly rozdíly mezi absolventy, kteří studovali na Filozofické fakultě, a těmi, kdo studovali na Matfyzu. Dnes už máme akreditovaný obor magisterského studia Matematická lingvistika, kde je vyvážená výuka lingvistických a informatických předmětů. Z počátku, kdy tento obor vznikal, jsme sice museli čelit otázkám typu, co vlastně lingvisti na Matfyzu dělají, ale postupem času takové otázky zmizely. Asi před deseti lety jsme s kolegy psali pro časopis Vesmír článek „Lingvistika na Matematicko-fyzikální fakultě?“ Tehdy byl ještě důraz na otazníku, dnes už je odpověď naprosto samozřejmá.

Když se nad tím trochu zamyslíme, tak jazykový systém vlastně taková matematika je...

Jazyk se v lecčems podobá matematice. Je to kód, jehož dešifrací se lingvisté zabývají. Je tvořen systémem, jehož pravidla by měla být konstruována jednoznačně a neměla by obsahovat kontradikce.

V úplných začátcích své vědecké kariéry jste se věnovala mluvnickému rozboru odborných textů. Proč jste si zvolila právě tyto texty?

Na začátku jsem se zabývala technickými texty, což bylo náročné, protože jsem jim věcně příliš nerozuměla. Strojový překlad, zejména v prvních etapách, směřoval právě do oblasti techniky a odborného jazyka, a tak do našich úkolů patřila analýza elektrotechnických textů.

Vedla tato práce k Funkčnímu generativnímu popisu, na němž jste se podílela?

Ve druhé polovině 20. století lingvistika začala být ovlivňována Chomského gramatikou jakožto způsobem formálního popisu jazyka. Profesor Sgall dokázal skloubit tvrzení, která lze z generativní gramatiky přejmout, a propojit je s tradicemi Pražského lingvistického kroužku z 30. let minulého století a vytvořit teoretický rámec, který dodnes nese název Funkční generativní popis. Napsal úvodní studii a navrhl jeho formální podobu. Naplnit tento rámec a rozšířit ho o další jevy bylo úkolem jeho žáků. V tomto duchu jsem se tedy spolu s širokým okruhem dalších spolupracovníků Funkčního generativní popisu ujala a pokračujeme v tom dodnes.

Proč jste si ze všech rovin jazyka, mezi které patří například také morfologie či slovotvorba, vybrala právě syntax?

Syntax mě zaujala tím, že je to systém, který na rozdíl například od morfologie není konečný. Když si dá někdo práci a sepíše v rámci morfologie všechny tvary všech českých slov, tak získá systém, který je k danému časovému období úplný. Syntax je bezbřehá. Tam je třeba udělat takové generalizace, které se dají ověřit, srovnávat s jinými oddíly popisu gramatiky, hledat pro syntaktické struktury odpovídající morfologické prostředky.

Základními otázkami, které řešíme, jsou vztahy mezi formami a jejich funkcemi: jaké funkce plní v textu například nějaký pád jakožto formální prostředek, a naopak jaké funkce může plnit ten který formální pád v textu, například 7. pád podstatného jména jakožto forma má mimo jiné ve větě význam určení prostředku – jeli vlakem, v jiných kontextech se prostředek vyjadřuje jinou formou, například jeli na kole, 7. pád jako mluvnická forma má v jiných kontextech odlišný význam, například lokace šli lesem. Je to elementární příklad, ale jeho aplikace na celý gramatický systém češtiny jednoduchá není.

Vaší prací a celkově cílem funkčního generativního popisu je popsat co nejpřesněji způsob, jakým jsou v konkrétním jazyce generovány výpovědi. Je ale vůbec možné jazyk, který je v podstatě živým organismem, shrnout do obecných pravidel?

Určitá skepse je na místě. Jazyk je otevřený systém, navíc se dá zpracovávat z hlediska různých teoretických přístupů, Funkční generativní popis je jen jedním z nich. I když člověk dopodrobna popíše nějaký jev, tak je pravděpodobné, že se najde protipříklad a že navrhované závěry jsou předběžné. Na druhé straně si myslím, že teoretický rámec pro popis jazyka, který máme, nás jako lingvisty posouvá k efektivnější práci s domýšlením a ověřováním závěrů.

Při své práci jste se musela setkávat také s informatiky. Bylo těžké najít společnou řeč?

Jako pamětník můžu říct, že kooperace mezi lingvisty a informatiky se vyvíjela v čase. Nejsem si ovšem vědoma toho, že by došlo k nějakým nedorozuměním. Myslím, že jsme se od sebe museli vzájemně něco naučit, aby spolupráce mohla dobře fungovat. Problematické spíše bylo to, že v době, kdy počítače začínaly – byly to velké sálové počítače a programy a algoritmy pro ně vytvořené byly specifické a velmi pracné – šlo ověřování lingvistických pravidel velmi pomalu, o to byla vzájemná komunikace složitější. Technika a strojové nástroje jsou dnes na úplně jiné úrovni. Porozumění mezi odborníky těchto dvou specializací je dnes už bráno jako samozřejmé.

Počítače už dnes zvládnou takřka zázraky. Je možné, že jednou už nebudou potřeba editoři či korektoři, neboť lingvisté počítače naučí opravovat či generovat texty bez lidského zásahu?

Myslím si, že bez lidského zásahu se neobejdeme ani v budoucnosti. Stroje už umějí ledacos, umí opravovat některé naše chyby v textu, vlastní oprava už je ovšem na člověku. Uživatel jistě takovou kooperaci ocení, ale jak už jsem říkala, jazyk je natolik složitý systém, že do všech jeho zákoutí nemůže zasáhnout žádný stroj. Samozřejmě mě překvapuje, že pokud se v rámci strojového učení počítači předloží velké množství dobře zpracovaných dat, počítač si z nich udělá závěry, které se promítnou na výstupu.

Tradičnímu lingvistovi se to zdá strašně zvláštní, že počítači není třeba předložit jazyková pravidla a že si závěry tvoří na základě statistických nástrojů. Ale výsledky jsou přesvědčivé. I když je celý tento proces taková „černá skříňka“, protože lingvistům ani jejich tvůrcům není zřejmé, co se uvnitř počítače děje, ukazuje se ale, že „nakrmit“ počítač velkým množstvím dobře zpracovaných dat je schůdná cesta pomáhající k praktickému uplatnění softwarových produktů. I tak si ale myslím, že lidský faktor bude potřeba v počítačové lingvistice vždycky.

Když už jsme u počítačové lingvistiky, podílela jste se na tvorbě Pražského závislostního korpusu. Jazykových korpusů máme ale pro češtinu celou řadu. Co to vlastně ten jazykový korpus je?

Použití jazykových korpusů je dnes mnohostranné, podívejme se na jejich využití pro lingvistiku samotnou: dříve si lingvista zpracovávající nějaké téma musel materiál pro jeho popis vyhledávat sám, případně si doklady vypisovat na kartičky. Získat touto cestou dostatečné množství materiálu nebylo snadné, ne-li nemožné. To vedlo k myšlence digitalizovat texty, které byly pro tuto formu k dispozici, a vytvořit z nich jazykový korpus. Po delších diskuzích mezi odborníky se podařilo v roce 1994 založit při Filozofické fakultě UK Ústav českého národního korpusu, který dnes prezentuje a rozšiřuje jazykové korpusy s různým zaměřením.

Zůstaneme-li u lingvistiky, tak při zpracovávání nějakého tématu, vytvoříme podle vlastních požadavků dotaz, pro nějž nám korpusový manažer vyhledá požadované doklady, kterých mohou být stovky až tisíce. V ÚFALu počínaje rokem 1995 vznikl pro češtinu první anotovaný korpus dat obsahující nejen vstupní text, ale také jeho morfologické a syntaktické charakteristiky. Je využíván široko za hranicemi našeho ústavu i v mezinárodním měřítku. Pro nás samotné je to nenahraditelný zdroj dat již předem analyzovaný kolektivem anotátorů, studentů a doktorandů z FF UK.

Pražský závislostní korpus obsahuje množství českých textů doplněných rozsáhlou a provázanou morfologickou (dva miliony slovních jednotek), syntaktickou (1,5 milionu slovních jednotek) a sémantickou (0,8 milionu jednotek) anotací.

Jazykový korpus je tedy něco, co využijí pouze lingvisté?

Korpus je užitečný i pro jiné účely. Slouží také zájemcům o vyhledání vzácnějších slov, o jejich stylovou charakteristiku, o autorství textů, o době jejich vzniku a podobně, slouží také jako podklad pro statisticky založené strojové aplikace. Těch hledisek, která při práci s korpusem lze uplatnit, je opravdu mnoho.

Na svém kontě máte také příručku Jak psát a nepsat česky (2004, druhé vydání 2014), kterou jste napsala s profesorem Petrem Sgallem. Co vás k práci na této publikaci přivedlo a pro koho je kniha určená?

Historie téhle publikace je osobně zabarvená. Profesor Sgall se chystal napsat popularizační příručku o češtině a poukázat na její rozrůzněnost, nabídku jejích různých prostředků i z hlediska „jejích nešvarů“, jak se uvádí v podtitulu. Jednou si postěžoval, že nemá dostatek jazykových příkladů, a ptal se, jestli nemám nějaký nápad. V té době jsem učila na Matfyzu předmět Odborné vyjadřování a styl. Měla jsem pro výuku „handouty“ plné různých dobrých i špatných příkladů z tisku. A když si je hlavní autor pročetl, navrhl, abych byla spoluautorem. Šlo tedy o popularizační knihu pro veřejnost; ohlas byl na ni zřejmě dobrý, protože pár let po prvním vydání vyšlo i druhé vydání.

Součástí areálu MFF UK na Malé Straně je i počítačová učebna Rotunda - podle základů v areálu odhalené románské rotundy.

Proč je vlastně důležité naši mateřštinu popularizovat pomocí takových příruček?

Profesor Sgall se snažil vždy upozorňovat na to, že spisovná čeština není rodným jazykem většiny příslušníků českého národa. To, co se děti naučily před příchodem do školy, byla nějaká jiná varieta národního jazyka. Úkolem popularizace je ukázat situace, v nichž je vhodná ta či ona varieta. Popularizačních knížek o češtině je celá řada a reagují zřejmě na poptávku veřejnosti. Ukazuje se na těchto příručkách, ale i podle dotazů kladených v jazykové poradně Ústavu pro jazyk český AV ČR, že běžní uživatelé jazyka mají o takové problémy velký zájem. Úkolem lingvisty je jazyk popisovat, nikoli podávat preskribce, v tomto ohledu má tedy tvorba popularizačních příruček dobrý smysl.

Když už se bavíme trochu obecněji o češtině – jak vnímáte téma nepřechýlených ženských příjmení? Aktuálně si ženy díky schválené novele nejspíš budou moci vybrat, jakou formu příjmení budou mít. Opravdu může nepřechýlené ženské příjmení dělat v syntaktické konstrukci problémy, jak tvrdí některé názory?

Přechylovat nebo nepřechylovat ženská příjmení je podle mého názoru záležitostí každé ženy. Žijeme přeci v demokracii, nechť se rozhodne každá žena sama. Jsou případy, kdy je rozhodnutí mít nepřechýlené příjmení pragmatické, například když má žena za manžela cizince a navíc hodně cestuje, je vhodné nabídnout úředníkům podobu jména, jež jim snadno spojí manžela s manželkou. Co se týká syntaxe, nevidím to jako problematický jev, protože v textech se s tím nesetkáváme tak často. Počítačový lingvista by se sice mohl bránit, že je škoda každé explicitní informace, která se v nepřechýlené podobě ztratí, poněvadž to trochu ztíží formální analýzu výpovědi. Myslím si ale, že pro automatické zpracování jazyka to není žádná zásadní překážka.

Napadá vás nějaký jazykový jev, který se v češtině ujal, ale vám je tak trochu „proti srsti“?

Trochu mi vadí, jak se u některých slov rozšiřuje jejich význam. Nezvykla jsem si ještě na široké užívání slovesa dát v současné češtině, například ve frázi „to dáme“; když vidím na autě nápis „dáme oběd“, tak vím, že si oběd tímto způsobem nedám (usmívá se). Také mi vadila fráze „je to o něčem“, ale člověk si zřejmě zvykne, takže doufám, že i tento náš rozhovor o něčem byl.

Prof. PhDr. Jarmila Panevová, DrSc.

Vystudovala český jazyk a ruštinu na Filozofické fakultě UK. Na Matfyzu působí už od roku 1961, v letech 1990 až 2007 zde byla zástupkyní ředitele Ústavu formální a aplikované lingvistiky (ÚFAL). Profesně se zabývá obecnou a počítačovou lingvistikou, současnou gramatikou češtiny, zejména pak syntaxí a sémantickou strukturou věty. V letech 1990 až 1999 předsedala Jazykovědnému sdružení ČR. Od roku 1993 je členkou Komise pro gramatickou stavbu slovanských jazyků při Mezinárodním komitétu slavistů, mezi lety 2003 až 2008 této komisi předsedala. V letech 2007 až 2013 byla členkou Vědecké rady Akademie věd ČR, dále pak působila v její Komisi pro etiku vědecké práce (2012 až 2018). V roce 2011 obdržela Zlatou pamětní medaili UK.

Autor: Sabina Ali

Foto: Michal Novotný, Viktor Mácha, MFF UK

Překladač z Matfyzu dohání v kvalitě běžné překladatele

Matfyz podcast: Může počítač vytvořit umělecké dílo?

Stavitelé rotundy měli hluboké znalosti matematiky

Panevová: Lingvistika už je na Matfyzu samozřejmostí

Související články

Překladač z Matfyzu dohání v kvalitě běžné překladatele

Matfyz podcast: Může počítač vytvořit umělecké dílo?

Stavitelé rotundy měli hluboké znalosti matematiky