Korpusová lingvistika je nové odvětví lingvistiky, které se objevilo relativně nedávno až díky počítačům a informačním technologiím. Teprve bouřlivý rozvoj osobních počítačů, pracovních stanic a počítačových sítí umožnil ukládat do počítačových pamětí rozsáhlé textové soubory, zpracovávat je a manipulovat s nimi podle zadaných kritérií. Existující softwarové nástroje umožňují třídit a klasifikovat, analyzovat a vyhodnocovat jazyková data v rozsahu, který by nebyl manuálně nikdy uchopitelný. To má ovšem značné metodologické důsledky: bez počítačů a informačních technologií bychom sotva mohli dospět k takovému typu poznání jazyka, jaké je dnes možné: nyní lze podrobně zkoumat v podstatě libovolné jazykové jevy a pokoušet se o jejich opravdu přesné a adekvátní generalizace, proti nimž byly dřívější popisy jazyka jen intuitivními (to ale nemusí znamenat, že vždy chybnými) aproximacemi. Hromadnost a velikost zpracovávaných dat vede ke kvalitativním změnám v metodologii takové empirické vědy, jíž je současná lingvistika. Počítače a informační technologie zásadně přiblížily lingvistům jejich předmět zkoumání - jazyková data.
Na teoretické rovině to bylo nejspíše v 50. letech, kdy někteří američtí lingvisté (Harris, Hill) dospěli k názoru, že korpus - dostatečně velký soubor přirozeně se vyskytujících jazykových dat - je nutným a dostačujícím empirickým základem pro vytvoření popisu daného přirozeného jazyka (jeho gramatiky); přitom intuitivní evidence a introspekce byla odsunuta až na druhé místo, ne-li vůbec na poslední.
Pak přišel Noam Chomsky s názorem, že korpusy jsou neadekvátní a vlastně nepotřebné, a naopak právě lingvistova intuice a introspekce je hlavním východiskem při tvoření gramatik, což se stalo ortodoxním stanoviskem následující lingvistické generace.
Korpusová lingvistika (KL) v novém pojetí začala vznikat nenápadně počátkem 60. let (Quirk, 1960, Kučera a Francis, 1967). Quirk začal pracovat na Survey of English Usage, SEU. V rámci SEU se počítalo i se zpracováním mluvené angličtiny, nebyl však orientován počítačově. O něco později začal pod vedením Čecha H. Kučery a Američana N. Francise na Brown University v USA vznikat počítačový korpus současné americké angličtiny - Computational Analysis of Present-Day American English, obsahující jen psané texty.
Dnes je již korpusů v jednotlivých jazycích celá řada a jejich rozsah i počet roste - jen u angličtiny to začíná klasickým miliónovým Brown Corpusem až po nedávný British National Corpus - BNC obsahující 100 miliónů slov (Consortium Oxford University Press, Lancaster and Birmingham University) a v rámci COBUILDu v Birminghamu vytvořený korpus Bank of English (J. Sinclair) čítající nyní 220 miliónů slovních forem a připravený k rozšíření na 500 miliónů (viz např. http://titania.cobuild.collins.co.uk/wordwatch.html).
Na tomto místě je ovšem potřeba konstatovat, že plný rozkvět KL nastává až v poslední době, a to právě díky prudkému vývoji v oblasti informatiky, informačních technologií a hardwaru. Lze očekávat, že s rozvojem textových procesorů, strojově čitelných textů, slovníků, multimédií a počítačových sítí budou do konce století k dispozici korpusy čítající miliardy slovních forem (podle hesla čím větší data, tím kvalitnější).
V současnosti se korpusem rozumí rozsáhlý vnitřně strukturovaný a ucelený soubor textů daného jazyka elektronicky uložený a zpracovávaný. Dnes vytvářené korpusy jsou organizovány se zřetelem ke zvolenému cíli (pro potřeby lexikografů, sociologů, komunikačních odborníků) a vycházejí z následujících teoretických předpokladů:
Poznámka
Lze to ukázat na vztazích mezi pojmy: token (výskyt),
typ a lemma. Token chápeme jako výskyt slovního
tvaru v korpusu, typ - slovní tvar jako takový
a lemma je základní tvar pro nějakou skupinu tvarů
(např. nominativ u substantiv nebo infinitiv u sloves).
Uveďme proporce těchto entit v BNC pro psaný jazyk:
tokens: 90 miliónů (v BNC je 10 mil. tvarů
z mluveného jazyka)
typy: 524 060
- z toho typů s četností 1 je 258 575
- 2% typů pokrývá 90% výskytů (tokens)
lemmata:
proporce typ : lemma, např. v SOD (Student's Oxford
Dictionary), činí pro angličtinu 2,5 : 1. Z uvedených údajů
lze odvodit, že např. pro slovník, který by měl mít rozsah
cca 250 tis. heslových slov, poskytuje BNC
se svými 100 mil. slovních tvarů reprezentativní materiál
jen pro cca 100 tis. heslových slov (vlastně lemmat).
Lingvistika je empirická disciplína a je proto přirozené, že její výsledky jsou do značné míry závislé na tom, jaký má přístup k datům a v jaké podobě jsou data lingvistům k dispozici. Protože většina jazykových dat má podobu textů (psaných i písemně zachycených mluvených), je možnost mít je pohromadě v elektronické podobě klíčová pro další rozvoj lingvistiky vůbec. Korpusová lingvistika v současnosti představuje novou větev lingvistiky, v níž se pracuje s korpusy uloženými v počítačích. To přirozeně znamená, že se v mnoha aspektech překrývá s počítačovou lingvistikou, z níž čerpá řadu postupů a technik. Výsledky získané těmito postupy brzy výrazně ovlivní nejen samu lingvistiku, v níž si jistě vynutí vznik nových, úplnějších a empiricky adekvátnějších gramatik (v knižní podobě), ale i počítačové zpracování přirozeného jazyka - už dnes se na základě korpusových dat budují nové a přesnější elektronické slovníky a robustní počítačové gramatiky. Korpusy jsou dnes v jazykovědě východiskem pro realistický základní výzkum ve formě relativně blízké přírodním vědám.
Není těžké vidět, že symbióza korpusové lingvistiky s počítačovou má i jasné metodologické důsledky: lingvista dnes může dělat věci, které byly dříve nepředstavitelné ať už pro svou časovou náročnost a pracnost (viz např. jednoduchý úkol setřídit manuálně třeba 250 tisíc slovníkových hesel) nebo skutečnou složitost (např. nalezení všech výskytů předložky na spolu se substantivem v akuzativu v textech o rozsahu 100 mil. slovních tvarů - spojení jako na stůl, na týden). Jedním z důsledků je i to, že lze více využívat statistických a pravděpodobnostních přístupů, které by na velkých souborech byly bez počítačů neaplikovatelné.
Korpusy nejsou určeny jen pro lingvisty - přirozený jazyk je prostředkem komunikace pro všechny: tento prostý fakt už leckde pochopili, konkrétně ve Velké Británii - vytvoření BNC přišlo zhruba na 1 400 000 liber, z čehož 60% pokryl příspěvek od Ministerstva obchodu a průmyslu. V tomto ohledu jde o jasně interdisciplinární záležitost, neboť korpusová data jsou použitelná pro odborníky v řadě disciplin:
Zdrojem korpusových dat je jak jazyk psaný, tak i mluvený, u dosavadních korpusů v poměru 9:1, protože záznam mluveného jazyka (magnetofonová nahrávka) a jeho převod (manuální přepis) do počítačově čitelné podoby je zatím velmi nákladný (až 15krát dražší než u psaných textů). Situace se může zlepšit až s komerčními aplikacemi pro zpracování mluvené řeči.
Z psaných textů se data získávají prakticky třemi způsoby:
Ve všech případech je nutná kontrola, opravy chyb, ev. konverze. Výsledek se zpravidla ukládá do mezinárodního ASCII formátu - ovšem v případě češtiny je třeba mít k dispozici vhodné konverzní programy, protože čeština je kódována řadou způsobů (v kódech MJK, PCL2, KOI8, ISOL2 a asi šesti dalších ve Windows).
V neposlední řadě se při tvorbě korpusů tvůrci musí vyrovnávat i s právními aspekty objevujícími se při získávání dat. Týká se to copyrightu a autorských práv a jejich uvolnění ze strany autora či vydavatele. Jednodušší bývá situace v případě nekomerčního využití, jinak je potřeba uzavírat vhodné typy smluv přesně stanovujících podmínky šíření korpusových dat a produktů, které na jejich základě vznikly. U mluvených záznamů je často potřeba zajistit zachování anonymity mluvčích.
Textové soubory volně uložené v počítači ještě netvoří korpus. Obvykle se setkáváme s následujícími typy uložení jazykových dat:
S rostoucím počtem korpusů vzniká potřeba jejich standardizace a vícenásobného a sdíleného použití (jedna z důležitých podmínek v rámci EU). S tímto cílem vznikla Text Encoding Initiative - TEI sponzorovaná EU a americkou vládou: vydala již doporučení pro společný výměnný formát, zásady kódování, znakové sady a navrhla společný kódovací - značkovací metajazyk, jímž je Standard Generalized Markup Language - SGML, určitě známý některým uživatelům TeXu a od r. 1986 uznávaný jako mezinárodní standard (ISO 8879). Značný důraz se klade na polyfunkčnost a polyteoretičnost notace (nezávislost na dílčích teoriích), aby se v budoucnu nemusely dělat nákladné úpravy a změny.
Na příkladu BNC naznačíme jen zhruba základní vlastnosti, které je třeba uvážit při budování korpusu. Nebudeme se pouštět do podrobností, chceme poskytnout jen základní představu. Korpus typu BNC může vypadat zhruba takto:
1. | přírodní vědy a čistá věda | ..... | 5% | ||
2. | aplikované vědy | ..... | 5% | ||
3. | sociální vědy | ..... | 15% | ||
4. | politická publicistika | ..... | 15% | ||
5. | publicistika obchodní a finanční | ..... | 10% | ||
6. | publicistika umělecká | ..... | 10% | ||
7. | publicistika náboženská a filosofická | ..... | 5% | ||
8. | publicistika zábavná (sport, hudba, ...) | ..... | 15% |
1. | knihy | ..... | 55-65% | ||
2. | periodika | ..... | 20-30% | ||
3. | brožury, letáčky, příručky, reklamy | ..... | 5-10% | ||
4. | dopisy, memoranda, zprávy, eseje | ..... | 5-10% | ||
5. | mluvené texty | ..... | 7-10% |
Jakmile jsou příslušná jazyková data k dispozici, lze je ukládat do vlastního korpusu. Vedle potřebných konverzí a tzv. čištění od sázecích příkazů se data vstupující do korpusu zpracovávají analyzátorem SGML (SGML tagger), který v nich vyznačuje strukturu textu: identifikaci textového vzorku a údaje uvedené výše, titulky, záhlaví, typy písma, pokud mají komunikační význam, kapitoly, odstavce, věty. Tím se do ukládaných dat vnáší množství dalších informací (metastruktura textu), takže se lze setkat i s názorem, že SGML notace je příliš komplikovaná. Např. v největším korpusu angličtiny Bank of English (220 mil. slovních tvarů) se SGML neužívá, pracují s vlastní, jednodušší notací pro metastrukturu textu.