Korpusy textů na FI MU

Ročník VIII - číslo 2, prosinec 1997
Citace: P. Rychlý. Korpusy textů na FI MU. Zpravodaj ÚVT MU. ISSN 1212-0901, 1997, roč. VIII, č. 2, s. 9-12.
Tematické zařazení: Aplikace počítačů, Dění na MU

předchozí článek | následující článek

Úvod

V tomto článku navazujeme na článekInformační technologie a korpusová lingvistika publikovaný dříve ve Zpravodaji. Připomeňme jen, že korpusová lingvistika má v současné době pro lingvistický výzkum klíčový význam. Většina výsledků jazykových výzkumů je ověřována na korpusech textů a mnoho studií je na zpracování korpusů přímo založeno.

Dále stručně připomeňme některé základní informace o korpusech. Korpus je rozsáhlý soubor textů přirozeného jazyka. Texty jsou v korpusu strukturovány a organizovány se zřetelem k využití pro určitý cíl, vůči němuž pak je korpus považován za reprezentativní.

Podle účelu existují různé typy korpusů. Podle zdroje textů mohou být korpusy psaného či mluveného jazyka, všeobecné nebo specializované na určitý styl, publicistický nebo odborný. Většina korpusů s ohledem na svou reprezentativnost obsahuje v různém poměru zástupce všech možných kategorií textů. Podle typu uložených dat mohou korpusy obsahovat pouze holé texty nebo texty různě označkované (anotované). Značkovat lze logickou strukturu textu (kapitoly, odstavce, nadpisy apod.), typografický vzhled (řádkový a stránkový zlom, zvýraznění pomocí různých typů písma apod.) nebo jazykové jevy (slovní druh a gramatické kategorie pro jednotlivé slovní tvary či slovní spojení, syntaktická struktura vět, sémantika a pragmatika vět či částí textu).

Značkované korpusy samozřejmě poskytují více informací o jazyku, a proto je snaha korpusy značkovat. To lze provádět buď ručně, což je ale velice nákladné, nebo automaticky (strojově), což může někdy znamenat zanesení jisté míry nepřesností do značkování. Proto se také mnoho výzkumů v korpusové lingvistice zabývá právě automatickým značkováním textů.

Technicky může mít uložení korpusu v počítači různou podobu. "Nejvolnější" formou je pouhý archiv (kolekce) textů v různých formátech a kódováních podle toho, z jakého zdroje text pochází. Organizovanější jsou textové banky: texty jsou v nich uloženy v jednotném formátu a je na nich provedeno základní značkování - rozdělení textu na jednotlivé články (dokumenty), určení typu zdroje pro každý článek apod. Konečnou formou uložení je použití nějakého korpusového manažeru, který texty zakóduje do určité databáze a uživateli umožňuje prohlížení korpusu z různých úhlů.

Korpusový manažer CQP

Na Fakultě informatiky MU, ale například i v ÚČNK (Ústav Českého národního korpusu), je používán korpusový manažer CQP. Jde o rozsáhlý systém na platformě UNIX obsahující programy pro zakódování korpusu, jeho prohlížení na textových terminálech i v X Window System a další pomocné programy na údržbu korpusu. Systém byl vyvinut na IMS (Institut für maschinelle Sprachverarbeitung) při univerzitě ve Stuttgartu.

Tento systém má několik vlastností, které se neobjevují u jiných korpusových manažerů. V korpusu je možné u každého slova uchovávat libovolné množství atributů. To například pro češtinu znamená, že můžeme u každého slova v korpusu uchovávat kromě základního tvaru slova i všechny jeho gramatické kategorie, zcela podle svého výběru.

V systému lze provádět tzv. přírůstkové dotazování (Incremental Queries). Složité dotazy je tedy možné vytvářet postupně: nejdříve si jednodušším dotazem zúžíme rozsah, potom složitějším dotazem, který se vyhodnocuje pouze na výsledku předchozího dotazu, upřesníme požadavek. Celý postup vede k jednodušší a rychlejší práci s korpusem. Z výsledků jednotlivých dotazů je možné vytvořit tzv. subkorpus. Ten potom můžeme zpřesňovat a rozšiřovat dalšími dotazy a nakonec uložit k pozdějšímu použití.

Také je zajištěn přístup k externím zdrojům informací: v dotazech je možné používat externí "funkce", které jsou zajištěny samostatným programem. Například je možné použít samostatný thesaurus pro zjišťování synonym či nadpojmů jednotlivých slov v dotazu. V tom případě se pro daný korpus v popisu jeho atributů definuje jméno a typ funkce a jméno odpovídajícího programu s případnými parametry. Pak můžeme vytvořit dotaz, který vyhledá všechna slovní spojení se slovy, jejichž nadpojmem je například "člověk".

Bohužel implementace tohoto přístupu není, už z podstaty věci, příliš efektivní, a tak je možné tyto externí funkce z časových důvodů použít pouze pro omezené subkorpusy.

Korpus je v CQP chápán jako posloupnost tzv. pozic. Typicky jsou na jednotlivých pozicích slovní tvary nebo interpunkční znaménka a jiné oddělovače tak, jak jdou v textu za sebou. Každé pozici je přiřazena množina atributů. Každý atribut nese nějakou textovou informaci (slovní tvar, lemma, slovní druh apod.). Pozice libovolného korpusu obsahuje vždy minimálně atribut se jménem word, který obsahuje vlastní slovní tvar na dané pozici.

V korpusu mohou být zaznamenány také různé strukturální značky, jako například hranice vět, odstavců, dokumentů apod. Značky mohou obsahovat další informaci, například značky určující hranice dokumentů nesou informaci o zdroji daného dokumentu.

Pro zkoumání a prohlížení korpusu na textovém terminálu slouží konkordanční program cqp, v grafickém prostředí pak program xkwic. Oba poskytují stejné funkce, xkwic je uživatelsky přívětivější, cqp lze naopak využít v dávkovém zpracování. Práce s oběma programy spočívá mimo jiné v kladení dotazu na vybraný korpus či subkorpus, třídění a prohlížení výsledku, spočítání a zobrazení statistických rozložení různých atributů uvnitř konkordancí ve výsledku dotazu.

Dotazovací jazyk CQP

Každým dotazem lze vybrat určitou množinu pozic, která je potom se svým okolím zobrazena ve formátu KWIC (Key Word In Context). Nejjednodušší formu dotazu tvoří pouze slovo (zapsané v uvozovkách), které chceme vyhledat. V dotazu také můžeme použít běžné konstrukce regulárních výrazů, známé např. z programu grep. Následující příklad tedy vyhledá všechny výskyty slovních tvarů začínající "počítač", případně s velkým "P".

DESAM> "[Pp]očítač.*"; obě je centrální <počítač> v Praze pro termin prostředí jako v <počítačové> branži . Přesto ch . Pokud jde o <počítače> , Arxon přišel na i malý prostor . <Počítač> lze dokonce s pomo stolu . Kdo už s <počítači> přišel do styku , izují svůj první <počítač> , však jeho veliko určeny americké <počítače> ALR s pětiletou z

Pokud chceme hledané pozice omezit i v jiných atributech než word, zapíšeme celou podmínku pro hledanou pozici do hranatých závorek. V podmínce mohou být použity klasické logické operátory (& | !).

DESAM> [lemma="s?počítat" & tag="k5.*tP.*"]; " Červenec vůbec <nepočítáme> jako sezónu , " ěco později , ale <počítáme> s tím , že by zde o plánu ale zatím <počítá> pouze s rozvojem ul hlavního nádraží <počítají> se zatunelováním ický starosta . " <Počítáme> s tím , že někter , v níž se snímky <počítají> na desítky , zvaž Poměrně snadno se <spočítají> poskytnuté dotac tšení asi 30000:1 <počítají> a měří jednotlivá

Ještě složitější dotaz může obsahovat regulární výrazy nad pozicemi.

DESAM> [lemma="počítat" & tag="k5.*"] [tag="k[234].*"]{0,3} [tag="k1.*"]; . A to <nepočítáme autobusy> . Na tomto místě pomalu <počítá ztrátu> . Film sice vydělal v z asek . <Počítejte sami Tisícikorunové rozdíly> čím <počítat jednotlivé podnikatelské subjekty> roby , <počítány oběti> , vyčíslovány škody ?

Pro zájemce z FI MU je systém CQP dostupný na strojích anxur, artemis a pyrrha po zadání module add korpus. Pro ostatní zájemce je omezený přístup realizován pomocí WWW na adrese http://www.fi.muni.cz/~pary/korp/.

Korpusy na FI

Na Fakultě informatiky jsou pod korpusovým manažerem CQP dostupné následující korpusy:

BROWN: ... anotovaný korpus anglických textů - historicky první počítačový korpus textů pro americkou angličtinu.
DESAM: ... označkovaný, desambiguovaný a pročištěný korpus publicistických textů vytvořený na FI MU. Jde o jeden z nejlepších výsledků korpusové lingvistiky u nás. Texty byly automaticky označkovány programem lemma, který každému slovnímu tvaru v textu přiřadí jeho slovní druh, základní tvar a gramatické kategorie. Všechny nejednoznačnosti byly ručně desambiguovány (zjednoznačněny) a korpus byl dále ručně pročištěn (odstraněny překlepy a chyby na různých úrovních značkování). Korpus obsahuje tři atributy: word - slovní tvar, lemma - základní tvar, tag - gramatickou značku obsahující slovní druh a příslušné gramatické kategorie.
DESEXP: ... korpus DESAM, ve kterém je atribut tag převeden na 8 různých atributů reprezentujících jednotlivé gramatické kategorie.
DESAM1: ... označkovaný a desambiguovaný korpus publicistických textů, jako svou část obsahuje korpus DESAM.
ESO: ... všeobecný korpus vytvořený z dostupných elektronických zdrojů, tj. CD Lidové noviny, CD Modré stránky, WWW Lidové noviny, WWW Mladá fronta Dnes.
FIT: ... korpus textů z oblasti informačních technologií, tj. výběry z knih vydavatelství Computer Press, časopis ComputerWorld (ročníky 1991-1995), časopis CHIP (ročník 1996).
PUBL: ... výchozí část oficiálního Českého národního korpusu budovaného v ÚČNK.

ID	počet pozic	počet článků
BROWN	229 370
DESAM	251 805	512
DESEXP	251 805	512
DESAM1	1 160 970	886
ESO	53 389 437	144 639
FIT	10 549 705	8 606
PUBL	23 580 252	70 827

Tabulka 1: Velikosti korpusů na FI MU

Další informace

Obecně o korpusové lingvistice, příkladech korpusů a korpusových nástrojích pojednává již uvedený článek Informační technologie a korpusová lingvistika. O korpusu DESAM, jeho vzniku a použití, vyjde v nejbližší době technická zpráva FI MU (Pala, Rychlý, Smrž). Na již zmíněné stránce http://www.fi.muni.cz/~pary/korp/ lze nalézt další informace o systému CQP a další zajímavé odkazy týkající se korpusové lingvistiky. Více o systému CQP lze nalézt na stránce IMS http://www2.ims.uni-stuttgart.de/~oli/CorpusToolbox/. O Českém národním korpusu existuje stránka ÚČNK http://ucnk.ff.cuni.cz/cnc.

Všechny popsané korpusy jsou na FI MU používány k dalším výzkumům v oblasti počítačového zpracování přirozeného jazyka. Pracuje se na pravděpodobnostním značkování textů, získání seznamu syntaktických struktur, který by měl vést k popisu formální gramatiky. Dále se pracuje na získávání dat pro potřeby seznamu valencí slov. O těchto výzkumech budeme informovat v připravovaných technických zprávách FI MU.

Literatura

[1]	K. Pala. Informační technologie a korpusová lingvistika. Zpravodaj ÚVT MU, 1996, roč. VI, č. 3 a 4. ... zpět do textu

Zpět na začátek

ÚVT MU, poslední změna 14.11.2011