Informační technologie a korpusová lingvistika (2)

Ročník VI - číslo 4, březen 1996
Citace: K. Pala. Informační technologie a korpusová lingvistika (2). Zpravodaj ÚVT MU. ISSN 1212-0901, 1996, roč. VI, č. 4, s. 11-13.
Tematické zařazení: Aplikace počítačů

předchozí článek | následující článek

Korpusové nástroje

Problematika korpusových nástrojů je rozsáhlá a představuje pole, na kterém se setkávají požadavky uživatelů (hlavně lingvistů a lexikografů) s přístupy programátorů. Výsledkem je konkrétní programové vybavení umožňující získávat z korpusů "poklady", které jsou v nich skryty. Aby si čtenář mohl udělat představu, co je v současnosti uživatelům k dispozici, uvedeme příklady konkrétních programů (systémů) používaných ve třech hlavních centrech korpusového bádání ve Velké Británii, konkrétně v Oxford University Press (OUP) a na univerzitách v Lancasteru (UCREL) a Birminghamu (COBUILD). Poznamenejme, že jednotlivá centra si ve skutečnosti vyvíjejí svůj vlastní software a mají jej jen pro vlastní potřebu, ovšem, jak lze vidět níže, jde do značné míry o podobné programy.

Základem jsou obvykle konkordanční programy, které třídí a počítají objekty nalezené v korpusu, což jsou v syrovém korpusu slovní tvary, interpunkce, případně další znaky (vyznačující třeba hranice vět, odstavců aj.) - ty jsou typicky součástí SGML. Pokud není do korpusu nějak zavedena další informace, konkordanční program nemůže rozlišit určité víceznačnosti (homonymie), např. v češtině mezi tvary ženu (ak. sg. substantiva žena) a ženu (1. os. sg. prés. slovesa hnát), nemluvě již o tom, že tvar hnát může být také tvarem substantiva mužského rodu. Proto ke korpusovým nástrojům patří i programy, které představují svého druhu gramatické analyzátory: orientují se na morfologii, syntax a v poslední době i na sémantiku. V současné terminologii se obvykle mluví o značkování (tagging) a o značkovacích programech (taggers) různé úrovně. Níže uvedené taggery obvykle pracují tak, že se snaží každému slovu v korpusu přiřadit jeho gramatickou značku, tj. jeho slovní druh včetně relevantních gramatických kategorií. Programy uvedené dále buď s těmito analyzátory spolupracují, nebo je přímo obsahují jako svou součást, nicméně pro přehlednost se o nich dále zmiňujeme zvlášť.

Program TESS
Vytvořen v OUP, v jazyce C, běží pod X-Windows a poskytuje uživateli možnost:
- vyhledat souvýskyty zadaných slov (v korpusu - rozumí se v BNC), např. obvykle a pršet
- zjistit a porovnat užití slova, tj. pořídit jeho konkordanční seznam
- zjistit frekvenční údaje o slovu
- zvolit korpus (častěji subkorpus)
- vyhledat slova obsahující zadané řetězy znaků (regulární výrazy)
- zjistit distribuci slov v korpusu
- vyhledat nejčetnější slova (podle slovních druhů)
- najít gramatické údaje pro zadaná slova
- pro zadané kolokace (kombinace slov) jako dále uvedený vypočítat tzv. MI- a T-score (viz níže)
Program LOOKUP
Vytvořen J.Clearem v COBUILDU, je napsán v jazyce C, běží pod UNIXem, využívá X-Windows a uživateli umožňuje:
- zjistit frekvence slov v celém korpusu (zde Bank of English)
- třídit podle různých zadaných kritérií
- sestavovat konkordance s různými filtry (formát KWIC - key word in context)
  stál v autobuse
  distribuce slova v korpusu
  první den v měsíci
- vyhledávat n-místné (!) kolokace, vypočítávat MI- a T-score (Mutual Information, které udává poměr pozorované/očekávané pravděpodobnosti výskytu jednotlivých prvků kolokace v korpusu; je to tedy míra udávající kolokabilitu a čím je vyšší, tím je spojení idiomatičtější - to se uplatní ve spojeních typu vysoká škola, slaměný vdovec nebo horký kandidát)
- vyhledávat výrazy na úrovni gramatiky, tj. podle slovních druhů a gramatických kategorií; lze pak pracovat i s taggerem a nechat si označkovat vyznačenou část korpusu
- poskytovat údaje k jednotlivým subkorpusům - podle volby uživatele
Program SARA
Vytvořen v Oxford University Computing Centre (k dispozici na třech CD asi za 240 liber), pracuje pod Unixem a DOSem ve Windows a uživateli nabízí možnost:
- vytvářet konkordance z BNC
- vyhledávat kolokace a k nim hlavní frekvenční údaje
- vyhledávat výrazy v korpusu na základě regulárních výrazů
- získávat dvouprvkové kombinace výrazů
- v omezené míře získávat statistické údaje
Program TED
Editor pro vytváření a zpracování slovníkových hesel. Byl vytvořen v OUP a poskytuje možnost přístupu do rozsáhlé databáze asi 80 elektronických slovníků a příruček. Lze v něm získávat veškeré lexikografické údaje potřebné při tvorbě nového slovníku. O programech a databázích tohoto typu se nám zatím může jen zdát.
Program D4
Vytvořen na univerzitě v Lancasteru, umožňuje pracovat se značkovanými texty a také korpusovými texty, kde každé větě je přiřazen její odpovídající syntaktický strom (treebanks), a dovede tvořit konkordance jak s gramatickými značkami (tagy jako subs(tantivum), verb(um)), tak i bez nich. Je to jeden z nejzajímavějších programů, který lze na tomto poli v UK vidět. Slouží k budování rozsáhlých a realistických počítačových gramatik a syntaktických analyzátorů (pro angličtinu). Je založen na tzv. skeletonové syntaktické analýze.
Morfologické analyzátory
Nejznámější morfologické analyzátory (značkovací programy - taggers pro angličtinu) zpracovávají data v korpusu tak, že každému slovnímu tvaru přiřadí jeho gramatickou značku (tag), tj. obvykle symbol slovního druhu (může jich být i víc). Obvykle se značkují vybrané části korpusu v rozsahu do 10 mil. slovních tvarů; vzniklé soubory jsou zhruba třikrát až čtyřikrát větší než původní, což znamená, že při jejich dalším zpracování vznikají časové problémy.
- Probabilistický analyzátor CLAWS (autor R.Garside z Lancasteru):
  Má vysokou úspěšnost, dosahuje jen 1.7% chyb. Celkově je CLAWS hybridní (vedle stochastického přístupu obsahuje i jednoduchá syntaktická pravidla) a pracuje s anotovaným lexikonem, jehož součástí je i seznam základních anglických idiomů. Značkování se provádí v několika fázích, používá se rovněž Viterbiho algoritmu (zpracovává pravděpodobnosti přechodu mezi větnými složkami). Probabilistický přístup je motivován tím, že je blízký psychologii člověka.
- Analyzátor vytvořený J.Clearem v birminghamském COBUILDU:
  Rovněž využívá pravděpodobnostního přístupu, je velmi robustní a jeho míra úspěšnosti je 95% - autor ji pokládá za dostačující.
- Helsinský analyzátor:
  Je založen na tzv. constraint grammars a je 60krát rychlejší než ostatní (předpokládá ale užití dvoustupňového morfologického analyzátoru Kimmo od Koskenniemiho) - je zatím ze všech zjevně nejúspěšnější, pokud jde o zvládnutí více jazyků (dosud dovede pracovat s 5 jazyky).
- Analyzátor D.Cuttinga et al. (je v public domain a dostupný v Internetu):
  Užívá skrytého Markovova modelu, je jazykově nezávislý, učí se od počátku na menších vzorcích, pracuje s vahami pravděpodobnostního výskytu, pracuje iterativně a ve fázi učení počítá s 18% předem označkovaného textu.

Značkování (anotování) korpusů

Zmínili jsme se už o gramatickém značkování (tagging) - přiřazení (symbolů) značek slovních druhů každému výskytu slova v korpusu. Výsledkem je tedy anotovaný korpus, tj. ne již čistý (surový) korpus, ale jeho verze opatřená gramatickými informacemi jistého druhu.

Takto anotovaný korpus se stává odrazovým můstkem pro další výzkum: pomocí konkordančního programu v něm můžeme vyhledávat gramatické abstrakce, jako např. výskyty pasíva (seznamy tvarů jako dělán, prodán, vyroben), vidu (seznam všech dokonavých sloves s předponou vy-), různé posloupnosti slovních druhů aj. Anotovaný korpus poskytuje též výchozí statistická data pro pravděpodobnostní zpracování jazyka. Ke značkovaným korpusům patří Brown Corpus, Lancaster-Oslo-Bergen Corpus (LOB) a Spoken English Corpus, který obsahuje fonetické a fonémické značkování.

Gramatické značkování na úrovni vyšší než slovnědruhové lze najít např. v London-Lund Corpusu (Svartvik, 1990). Vznikly již syntakticky analyzované subkorpusy známé jako stromové banky (treebanks), byly však vytvořeny jen z podčástí korpusů. Nedávný výzkum na LOB Corpusu však vedl k technice zjednodušené syntaktické analýzy známé jako skeletonová analýza, kterou lidští operátoři mohou provádět velmi rychle (Leech and Garside, 1991).

Anotování korpusů nekončí u syntaktické analýzy. Dalšími předpokládanými fázemi jsou sémantická a textová (promluvová) analýza. Byla již provedena anotace London-Lund Corpusu týkající se promluvových (textových) ukazatelů (Stentström, 1990) a dalším příkladem je anaforická stromová banka, která se vytváří u LOB Corpusu a zahrnuje nejen skeletonovou analýzu, ale i vyznačení anaforických vztahů v textu - vztahy typu Nachystám ti tam ty diskety. Vezmeš si je tam zítra.

Situace v češtině

Závěrem uveďme základní informace o tom, jak vypadá situace pro češtinu. Na podzim roku 1994 byl na FF UK založen Ústav českého národního korpusu, v němž se nyní buduje Český národní korpus. Během roku 1995 byl vytvořen jeho základ, v němž je uloženo cca 20 000 000 slovních tvarů, a na konci r 1996 by již český korpus měl obsahovat téměř 100 mil. českých slovních tvarů. Vedle ÚČNK se na této práci podílejí další pracoviště UK, jako Ústav teoretické a komputační lingvistiky FF UK, Ústav formální a aplikované lingvistiky MFF UK, dále Ústav pro jazyk český AV ČR a v neposlední řadě Ústav českého jazyka FF MU i Fakulta informatiky MU.

Struktura textů ukládaných do korpusu se vyznačuje analyzátorem SGML. Pro gramatické značkování se připravuje analyzátor (tagger) LEMMA vytvořený v Brně skupinou Ševeček, Osolsobě, Pala, který je dnes schopen pracovat se 164 000 českých kmenů a dovede každému rozpoznanému slovnímu tvaru přiřadit jeho slovní druh(y) a odpovídající gramatické významy. Na rozdíl od pravděpodobnostně orientovaných analyzátorů pro angličtinu je LEMMA založena na úplné morfologické analýze češtiny, proti které je podobná analýza angličtiny spíše dětskou hračkou. Ze stejné dílny pocházejí i podobné lemmatizující programy pro slovenštinu a ruštinu a dále pro angličtinu, němčinu a francouzštinu.

Vedle již uvedených důvodů korpusy potřebujeme i s ohledem na náš budoucí vstup do EU: i když jednacím jazykem je zde do značné míry angličtina, překládání mezi jazyky uvnitř EU je nevyhnutelné. Vznikají proto paralelní korpusy využívané při budování systémů strojového překladu a tvorbě vícejazyčných a dnes už primárně elektronických slovníků. Není tajemstvím, že EU počítá s Polskem, Maďarskem a Českou republikou jako prvními východoevropskými členy EU - odráží se to i v existenci společného slovníkového projektu CEGLEX (Central European Generic Lexicon) zahrnujícího primárně polštinu, maďarštinu a češtinu.

Zpět na začátek

ÚVT MU, poslední změna 14.11.2011