Problematika korpusových nástrojů je rozsáhlá a představuje pole, na kterém se setkávají požadavky uživatelů (hlavně lingvistů a lexikografů) s přístupy programátorů. Výsledkem je konkrétní programové vybavení umožňující získávat z korpusů "poklady", které jsou v nich skryty. Aby si čtenář mohl udělat představu, co je v současnosti uživatelům k dispozici, uvedeme příklady konkrétních programů (systémů) používaných ve třech hlavních centrech korpusového bádání ve Velké Británii, konkrétně v Oxford University Press (OUP) a na univerzitách v Lancasteru (UCREL) a Birminghamu (COBUILD). Poznamenejme, že jednotlivá centra si ve skutečnosti vyvíjejí svůj vlastní software a mají jej jen pro vlastní potřebu, ovšem, jak lze vidět níže, jde do značné míry o podobné programy.
Základem jsou obvykle konkordanční programy, které třídí a počítají objekty nalezené v korpusu, což jsou v syrovém korpusu slovní tvary, interpunkce, případně další znaky (vyznačující třeba hranice vět, odstavců aj.) - ty jsou typicky součástí SGML. Pokud není do korpusu nějak zavedena další informace, konkordanční program nemůže rozlišit určité víceznačnosti (homonymie), např. v češtině mezi tvary ženu (ak. sg. substantiva žena) a ženu (1. os. sg. prés. slovesa hnát), nemluvě již o tom, že tvar hnát může být také tvarem substantiva mužského rodu. Proto ke korpusovým nástrojům patří i programy, které představují svého druhu gramatické analyzátory: orientují se na morfologii, syntax a v poslední době i na sémantiku. V současné terminologii se obvykle mluví o značkování (tagging) a o značkovacích programech (taggers) různé úrovně. Níže uvedené taggery obvykle pracují tak, že se snaží každému slovu v korpusu přiřadit jeho gramatickou značku, tj. jeho slovní druh včetně relevantních gramatických kategorií. Programy uvedené dále buď s těmito analyzátory spolupracují, nebo je přímo obsahují jako svou součást, nicméně pro přehlednost se o nich dále zmiňujeme zvlášť.
stál v autobuse
distribuce slova v korpusu
první den v měsíci
Zmínili jsme se už o gramatickém značkování (tagging) - přiřazení (symbolů) značek slovních druhů každému výskytu slova v korpusu. Výsledkem je tedy anotovaný korpus, tj. ne již čistý (surový) korpus, ale jeho verze opatřená gramatickými informacemi jistého druhu.
Takto anotovaný korpus se stává odrazovým můstkem pro další výzkum: pomocí konkordančního programu v něm můžeme vyhledávat gramatické abstrakce, jako např. výskyty pasíva (seznamy tvarů jako dělán, prodán, vyroben), vidu (seznam všech dokonavých sloves s předponou vy-), různé posloupnosti slovních druhů aj. Anotovaný korpus poskytuje též výchozí statistická data pro pravděpodobnostní zpracování jazyka. Ke značkovaným korpusům patří Brown Corpus, Lancaster-Oslo-Bergen Corpus (LOB) a Spoken English Corpus, který obsahuje fonetické a fonémické značkování.
Gramatické značkování na úrovni vyšší než slovnědruhové lze najít např. v London-Lund Corpusu (Svartvik, 1990). Vznikly již syntakticky analyzované subkorpusy známé jako stromové banky (treebanks), byly však vytvořeny jen z podčástí korpusů. Nedávný výzkum na LOB Corpusu však vedl k technice zjednodušené syntaktické analýzy známé jako skeletonová analýza, kterou lidští operátoři mohou provádět velmi rychle (Leech and Garside, 1991).
Anotování korpusů nekončí u syntaktické analýzy. Dalšími předpokládanými fázemi jsou sémantická a textová (promluvová) analýza. Byla již provedena anotace London-Lund Corpusu týkající se promluvových (textových) ukazatelů (Stentström, 1990) a dalším příkladem je anaforická stromová banka, která se vytváří u LOB Corpusu a zahrnuje nejen skeletonovou analýzu, ale i vyznačení anaforických vztahů v textu - vztahy typu Nachystám ti tam ty diskety. Vezmeš si je tam zítra.
Závěrem uveďme základní informace o tom, jak vypadá situace pro češtinu. Na podzim roku 1994 byl na FF UK založen Ústav českého národního korpusu, v němž se nyní buduje Český národní korpus. Během roku 1995 byl vytvořen jeho základ, v němž je uloženo cca 20 000 000 slovních tvarů, a na konci r 1996 by již český korpus měl obsahovat téměř 100 mil. českých slovních tvarů. Vedle ÚČNK se na této práci podílejí další pracoviště UK, jako Ústav teoretické a komputační lingvistiky FF UK, Ústav formální a aplikované lingvistiky MFF UK, dále Ústav pro jazyk český AV ČR a v neposlední řadě Ústav českého jazyka FF MU i Fakulta informatiky MU.
Struktura textů ukládaných do korpusu se vyznačuje analyzátorem SGML. Pro gramatické značkování se připravuje analyzátor (tagger) LEMMA vytvořený v Brně skupinou Ševeček, Osolsobě, Pala, který je dnes schopen pracovat se 164 000 českých kmenů a dovede každému rozpoznanému slovnímu tvaru přiřadit jeho slovní druh(y) a odpovídající gramatické významy. Na rozdíl od pravděpodobnostně orientovaných analyzátorů pro angličtinu je LEMMA založena na úplné morfologické analýze češtiny, proti které je podobná analýza angličtiny spíše dětskou hračkou. Ze stejné dílny pocházejí i podobné lemmatizující programy pro slovenštinu a ruštinu a dále pro angličtinu, němčinu a francouzštinu.
Vedle již uvedených důvodů korpusy potřebujeme i s ohledem na náš budoucí vstup do EU: i když jednacím jazykem je zde do značné míry angličtina, překládání mezi jazyky uvnitř EU je nevyhnutelné. Vznikají proto paralelní korpusy využívané při budování systémů strojového překladu a tvorbě vícejazyčných a dnes už primárně elektronických slovníků. Není tajemstvím, že EU počítá s Polskem, Maďarskem a Českou republikou jako prvními východoevropskými členy EU - odráží se to i v existenci společného slovníkového projektu CEGLEX (Central European Generic Lexicon) zahrnujícího primárně polštinu, maďarštinu a češtinu.