DSS a Internetovské dokumenty

Ročník IX - číslo 4, duben 1999
Citace: J. Vochozka. DSS a Internetovské dokumenty. Zpravodaj ÚVT MU. ISSN 1212-0901, 1999, roč. IX, č. 4, s. 4-9.
Tematické zařazení: Různé

předchozí článek | následující článek

1 Cena informací

V současné době se neustále utvrzujeme v tom, že informace jsou to nejcennější, co člověk v profesním životě má. Na základě dostupnosti informací pro konkrétního člověka lze přímo odvodit jeho úspěšnost v profesním životě, ať už pojem "úspěch" definuje libovolným způsobem.

Díky rozvoji informačních a komunikačních technologií je problém prosté dostupnosti informací postupně zastiňován problémem dostupnosti vhodných informací. Tuto situaci lze charakterizovat následovně: "Málokdo má nedostatek dat, málokdo má dostatek informací." Otevírají se zdroje dat a informací, které umožní prakticky komukoli shromáždit nepřeberné množství dat z nějak definované oblasti jeho zájmů. Ovšem následná klasifikace dostupných informací na "vhodné" a "ostatní" představuje s nárůstem této dostupnosti stále větší část ceny zpracování informace. Současně je mnohokrát ověřenou zkušeností, že příliš úzce nebo naopak příliš široce pojatý výběr vstupních dat informace podstatnou měrou ovlivnil, nebo přímo znehodnotil jejich veškeré následné zpracování.

Výše nastíněný problém je řešen na základě poznatků různých oborů a nejrůznějších technologií už delší dobu. Jako příklad technologií řešících uvedený problém uvedeme v tomto článku pouze dvě z nich: technologii systémů pro podporu rozhodování (Decision Support System, dále jen DSS) a technologii založenou na prostředí Internetu (dále jen Internet). Obě uvedené skupiny technologií se během svého vývoje dostaly do období, kdy musely řešit problém klasifikace dat na základě požadavků uživatelů.

Uvedené technologie bychom zde chtěli vzájemně porovnat jako paralely řešení některých oblastí ve zpracování informací. Díky faktu, že DSS jsou zpravidla daleko pevněji a centralizovaněji strukturovány než Internet, mají propracovanější některé mechanismy pro zpracování informací. Na druhé straně je potenciál rozvoje (lidský...) DSS přímo odvozen od potenciálu organizací, které je provozují, a je tedy omezený ve srovnáním s potenciálem rozvoje Internetu. Předpokládáme, že vývoj DSS nástrojů už prošel některými etapami rozvoje, které Internet teprve řeší, případně ke kterým teprve dospěje.

2 DSS - Decision Support System

DSS se objevují poměrně záhy po vybudování prvních informačních systémů (dále jen IS). Hlavním úkolem IS je správa a vedení konkrétní agendy, pro kterou je IS vybudován. Příkladem IS může být pokladní systém v bance, který by měl pracoval bez chyb, ale současně natolik rychle, aby odbavení klienta nebylo zdlouhavé, a to i za cenu jednoúčelové architektury tohoto systému. Nad daty tohoto IS může být nasazen DSS, který bude sloužit analytikům banky např. k vyhledávání závislostí v pohybech hotovosti. Důvodem k oddělení těchto systémů pracujících nad jednou problémovou oblastí je zcela odlišný způsob práce s daty, odlišné nároky na vlastnosti systému i odlišné vnímání důležitosti těchto systémů jednotlivými skupinami uživatelů.

Smyslem budování DSS je snaha organizace využít informační potenciál, který je ukryt v datech produkovaných jejími IS. Organizace se tak snaží důkladně poznat sama sebe a na základě takového poznání přijímat v první řadě kvalitnější strategická rozhodnutí. Ve výše uvedeném příkladě DSS pracujícího nad daty pokladního IS by takovým rozhodnutím mohlo být např. otevření, případně likvidace pobočky banky. V druhé řadě začíná organizace pomocí informací DSS formulovat i operativní rozhodnutí. V uvedeném případě by se takové rozhodnutí mohlo týkat např. změny otevíracích hodin pobočky.

V současné době se vyspělé DSS systémy zaměřují nejen na výběr vhodných dat z databáze IS, ale poskytují velice sofistikované prezentační prostředky pro vizualizaci nebo pro distribuci jednotlivých informací uživatelům.

Pro potřeby tohoto článku definujeme DSS poněkud úžeji, jako systém, který na základě dostupných dat a uživatelem definovaného dotazu poskytne uživateli pouze data odpovídající jeho dotazu.

Vývoj DSS

V několika následujících odstavcích se pokusíme ve zkratce nastínit vývoj DSS a problémy, které jeho uživatelé mimo jiné řeší. Vědomě se přitom dopouštíme jistého zjednodušení. Nebudeme se zde hlouběji zabývat ani hardwarovými, případně softwarovými prostředky DSS.

První DSS se objevily začátkem 60-tých let většinou jako součást aplikace IS. Tyto prostředky byly budovány převážně jako izolované aplikace, které řešily jednu konkrétní agendu. Tyto aplikace byly převážně kódovány v COBOLU a svoje data ukládaly na magnetické pásky. Magnetické pásky měly postavení levného média vhodného pro ukládání velkých objemů dat. Z hlediska dnešního pohledu byly tyto aplikace postaveny nad jediným "master souborem". Jejich výstupy byly prezentovány jako reporty ve formě tiskových sestav často dosahujících velkého počtu stran.

V polovině 60-tých let došlo k rozšíření DSS do té míry, že v jediné organizaci bylo současně nasazeno několik aplikací DSS. Tyto aplikace mohly být provozovány na jediném sálovém počítači. Díky skutečnosti, že jediná organizace provozovala několik DSS a tyto systémy zpracovávaly data této organizace, každý ze svého hlediska, docházelo k nárůstu počtu magnetických pásek. Důvodem byl jednak nárůst dat a současně zvyšující se redundance dat. Popsaná situace vedla k problémům s údržbou těchto dat - jak na páskách udržovat konzistentní data, jak řídit šíření změny v datech... Je třeba si uvědomit, že sekvenční prohledání jediné pásky trvalo cca 30 minut, ale průměrně bylo potřeba pouze kolem 5% prohledávaných záznamů - úsilí věnované klasifikaci zbývajících 95% záznamů bylo daní technologii.

Mohutný rozvoj DSS nastal v důsledku zavedení technologie DASD (Direct Access Storage Device) začátkem 70-tých let. Tato zařízení s přímým přístupem umožnila založit DSS na novém základu. Nebylo třeba prohlížet všechny záznamy na médiu, ale bylo možné přímo vybírat pouze ty záznamy, které DSS pro konkrétní úkol potřeboval. Pro vyžití potenciálu přímého přístupu bylo ale třeba udržovat informaci o "místě", kde jsou tato potřebná data uložena. Jedním ze základních prostředků pro definici takového "místa" je datový model.

Jako přímý důsledek zavedení DASD zařízení byl vyvinut softwarový prostředek DBMS (Data Base Management System). DBMS představují obálku dat, která zabezpečí uložení a zpřístupnění těchto dat definovaným způsobem na základě datového schématu. Datové schéma představuje základní informaci o uložených datech. Současně vzniká pojem databáze ve smyslu báze dat, tj. základu, který umožňuje budovat nad jednou kopií dat více různých aplikací. Lze tedy vybudovat v organizaci jedinou databázi, nad níž bude nasazeno několik DSS nástrojů.

Data uložená v databázi lze opatřit doplňujícími údaji popisujícími globální vlastnosti dat. Jako příklad může sloužit údaj doplňující kladnou celočíselnou hodnotu menší než 120, který této hodnotě přiřadí význam věku člověka v létech. Doplňující údaje mohou mít různou, vždy však jasně definovanou formu. V dalším je budeme označovat pojmem metadata. Jednou ze základních forem metadat popisujících data uložená v databázi je datový model.

Předmětem studia se stává uložení dat v databázi popsané datovým modelem. V roce 1968 uvedla IBM na trh databázový systém založený na hierarchickém modelu logického uložení dat a v roce 1971 byl přijat standard síťového modelu logického uložení dat (CODASYL). Oba uvedené modely předpokládaly budování databáze jako grafu, v jehož uzlech byly jednotlivé údaje, a hrany představovaly vazby mezi těmito údaji. K jednomu údaji tak bylo možno "navázat" několik dalších údajů, které k němu měly definovaný vztah. Nad touto strukturou lze definovat několik základních operací. Bohužel tyto operace byly v mnoha provozovaných aplikací definovány proprietárně. Pro databázi definovanou na základě hierarchického modelu lze definovat následující operace:

nalezení záznamu podle jeho identifikace;
nalezení předchozího záznamu v grafu (předka);
nalezení následujícího záznamu v grafu (potomka) a
nalezení záznamu na stejné úrovni v grafu (sourozence).

Pro databázi definovanou na základě síťového modelu lze definovat tytéž operace pro jednu hierarchii (set) a navíc definovat operace vyplývající z možnosti existence několika paralelních hierarchií (setů), např. přesun mezi sety.

V roce 1970 se objevuje definice relačního modelu uložení dat. Tento model představuje nejen nový pohled na logické uložení dat v databázi, ale ve svém důsledku umožňuje i nové a současně efektivní způsoby práce s databázemi. Základním přínosem tohoto způsobu je oddělené uložení dat a aplikace. Aplikace se obrací na databázi standardním dotazovacím jazykem (SQL - Structured Query Language), který je z velké části společný databázím užívajícím relační model, bez ohledu na výrobce databázového stroje. Uložení jednotlivých záznamů v databázi budované na základě relačního modelu si lze představit jako řádky v tabulkách a atributy těchto záznamů si lze představit jako sloupce těchto tabulek. Databáze je typicky tvořena více tabulkami. Nad takto postavenou strukturou tabulek lze definovat operace pracující nad množinou dostupných záznamů. Základní z těchto operací jsou:

výběr záznamů podle logické výběrové podmínky (selekce);
výběr pouze části záznamu (projekce);
současný výběr z více tabulek (union, join)...

Výhodou relačního modelu oproti výše uvedenému hierarchickému a síťovému modelu je možnost definice dotazu nezávisle na "aktuálně" přístupném záznamu. Dotaz vrací nad stejnou databází stejný výsledek nezávisle na dříve zpracovávaném záznamu.

V průběhu 80-tých let se společně s nástupem 4GL jazyků navržených pro efektivní práci s databázemi objevuje jeden ze základních nástrojů DSS - extrakční program. Tento typ programu vybírá z databáze podmnožinu dat, extrakt, pro jejich následné zpracování, nebo přímé vyhodnocení mimo databázi. Popularita extrakčních programů a extraktů se zvýšila rozšířením výkonných PC, která umožnila nezávislé zpracování extraktů přímo na stolech jednotlivých uživatelů.

Navíc nic nebrání slučovat při zpracování extrakty různých zdrojových databází. Vzniká tak na první pohled velice efektivní struktura umožňující distribuované zpracování dat. Záhy však tento způsob zpracování naráží na absenci distribuce metadat popisujících význam dat společně s daty. Data jsou distribuována s "pseudometadaty" nebo zcela bez metadat.

Výše naznačená architektura (NEA - Naturally Envolving Architecture) se často označuje jako "spider web" extraktů. Důsledkem této architektury jsou sestavy, u kterých již nelze vystopovat skutečné zdroje dat, na základě nichž byly kalkulovány, případně úpravy, které byly s daty ze zdrojové databáze provedeny. Praktickým projevem takové architektury jsou například dva reporty popisující nedoplatky v jednotlivých měsících. Jeden report počítá tyto nedoplatky na základě extraktů pořízených k prvnímu dni měsíce, druhý na základě stavu v polovině měsíce. Současně nemusí být u těchto reportů patrná naznačená rozdílná metodika výpočtu, protože může být překryta několika vrstvami konsolidací dat.

Naznačený problém DSS v současné době řeší technologie označovaná jako data warehousing. Tuto technologii lze, mimo jiné, charakterizovat jako technologii založenou na důsledném zpracování a distribuci metadat společně s daty.

3 Dokumenty Internetu

Pro potřeby tohoto článku definujeme Internet jako systém, který na základě dokumentů uložených na serverech Internetu a definovaného požadavku uživatele poskytne tomuto uživateli pouze dokumenty odpovídající jeho požadavku. Poskytnutím dokumentu zde rozumíme nejenom "fyzické" poskytnutí dokumentu, ale i poskytnutí URL adresy dokumentu.

V předchozí kapitole jsme velice stručně a do jisté míry zjednodušeně popsali některé etapy vývoje DSS. Podobné etapy lze v jistém slova smyslu vysledovat i ve vývoji Internetu.

Dokumentem v prostředí Internetu rozumíme například WWW stránku, .ps, .zip nebo.pdf soubory. Součástí základní identifikace dokumentu na Internetu je jeho fyzické umístění vyjádřené odkazem URL. Dokument může jako svoji součást obsahovat odkazy na další dokumenty. Současně na každý dokument Internetu směřuje odkaz z jiných dokumentů. Výjimkou z tohoto pravidla jsou "dokumenty" se zvláštním statutem - domény, například domény .cz, .com nebo .org. Pro práci s dokumenty Internetu je tedy třeba znát jejich fyzické uložení vyjádřené jejich URL.

Pro jednoduchost nyní předpokládejme, že na každý dokument je směřován právě jeden odkaz a dokument může obsahovat libovolné množství odkazů. Takto budovaná hierarchická struktura dokumentů je velice podobná struktuře uložení dat na základě hierarchického modelu databáze, který jsme popsali v předchozí kapitole. Existuje základní doména, ze které jsou směřovány jednotlivé odkazy na poddomény a dále až na jednotlivé dokumenty. Nad hierarchicky uspořádanými dokumenty lze definovat podobné operace jako v prostředí hierarchické databáze. Užití takových operací ale vyžaduje od uživatele znalost struktury uložení dokumentů. Jako příklad operací zde můžeme uvést:

nalezení dokumentu podle jeho URL;
nalezení dokumentu, na který je veden odkaz (potomka), a
nalezení dalšího dokumentu, na který je veden odkaz na stejné úrovni v grafu (sourozence).

Další operace - nalezení dokumentu, ze kterého je veden odkaz - zde už není triviálním problémem (za nalezení dokumentu v tomto případě nepovažujeme znovu zobrazení již vyhledaného dokumentu z buferu internetovského prohlížeče.)

V předchozím odstavci jsme omezili počet odkazů na dokument. I v případě, kdy uvolníme toto omezení a umožníme definovat více odkazů na dokument, nerozšíříme podstatně repertoár operací, které by nám umožnily efektivnější práci s dokumenty v prostředí Internetu.

Vyhledávání v Internetu

Většina běžně dostupných prostředků pro usnadnění práce s dokumenty Internetu je založena na vytvoření (někdy virtuálního) referenčního dokumentu, ze kterého jsou vedeny odkazy na dokumenty, o nichž tvůrce referenčního dokumentu předpokládá, že odpovídají dotazu uživatele. Mechanismy tvorby referenčního dokumentu jsou značně rozdílné: od generování tohoto dokumentu hledacím strojem (search engine, např. Alta Vista, Lycos) na základě dotazu uživatele na straně jedné až po sestavení referenčního dokumentu "ručně" na základě erudice autora referenčního dokumentu na straně druhé.

Referenční dokument sestavený pomocí hledacího stroje velice často obsahuje velké množství odkazů, které sice vyhovují položenému dotazu, ale nemají žádný vztah k řešenému problému. Tento stav je zapříčiněn algoritmem zpracování dotazu hledacím strojem, který je většinou založen na prostém výskytu slova v dokumentu. Pokud zpřesňujeme dotaz, velice často na základě tohoto zpřesnění dochází současně k odstraňování relevantních odkazů z referenčního dokumentu. V prostředí Internetu ale již existují prostředky pro vyhledávání dokumentů založené na relačním modelu, kterým nahrazují hierarchickou architekturu a umožňují práci s dokumenty bez nutnosti explicitní znalosti jejich fyzického uložení. Těmito prostředky jsou již některé ze zmíněných hledacích strojů. Tyto stroje vytvářejí indexy, které ve svých relačních strukturách zachycují relaci mezi klíčem indexu (ve většině případů jsou jako indexy vybírána slova získaná plošným prohlížením serverů Internetu) a URL odkazem vedoucím na dokumenty obsahující tento klíč. Vyhledávací podmínky založené na užití logických operátorů (and, or...), které je možno definovat v prostředí těchto hledacích strojů, jsou definovány nad těmito relačními strukturami. Již zmíněnou nevýhodou současných hledacích strojů založených na tomto principu je budování indexů pouze na základě výskytu slova v dokumentu.

Využitelnost konkrétního "ručně" sestaveného referenčního dokumentu je zpravidla přímo závislá na erudici autora tohoto dokumentu. Velká část "ručně" sestavených referenčních dokumentů obsahuje odkazy na jiné referenční dokumenty. Tyto dokumenty vytvářejí zpravidla autoři s rozdílnou úrovní erudice a tento stav ve svém důsledku vede k obdobě architektury NEA (Naturally Envolving Architecture) popsané v části věnované extraktům databází.

Metadata dokumentů Internetu

Podle představ autora tohoto článku je třeba pro kvalitnější práci s dokumenty v prostředí Internetu umožnit uživatelům položit dotaz na konkrétní vlastnost dokumentu. Tyto vlastnosti by neměly být součástí dokumentu, ale měly by být uloženy a následně distribuovány společně s tímto dokumentem. Pro formalizovaný popis vlastností dokumentů lze užít termín metadata.

Úloha metadat dokumentu na Internetu by odpovídala úloze atributů záznamu v relační databázi. Nad těmito metadaty by bylo možno definovat dotazy konstruované na obdobných principech jako dotazy nad relačními databázemi. Existovala by tedy možnost položit dotaz přímo na dokumenty Internetu nebo jejich metadata bez nutné znalosti fyzického uložení dokumentu. Bylo by též možné konstruovat hledací stroje na základě principiálně nových algoritmů. Pomocí dotazů definovaných nad metadaty by bylo možné pracovat přímo s vlastnostmi dokumentů, a nepracovat pouze na základě slov a slovních spojení obsažených v dokumentu, případně se spoléhat na erudici nám neznámého autora referenčního dokumentu.

Aby mohla metadata plnit naznačenou úlohu, měla by splňovat některé předpoklady:

metadata by měla být vyplněna s velkou mírou věrohodnosti;
struktura metadat by měla být natolik bohatá, aby umožňovala efektivní popis dokumentu, ale současně by neměla být příliš rozsáhlá, aby pracnost vyplňování nebyla nepřiměřená předpokládanému přínosu;
dokumenty by měly být opatřeny metadaty už v okamžiku zpřístupnění na Internetu;
metadata by měl vytvářet autor dokumentu na základě definovaných doporučení;
metadata by měla být vytvořena pro nezanedbatelnou část dokumentů Internetu, nebo jeho definované části, aby se jejich užití stalo pro uživatele prakticky přínosné.

Zavedení popisu dokumentů pomocí metadat by pravděpodobně znamenalo pro práci v prostředí Internetu podobný impuls jako prosazení relačního modelu uložení dat v DSS. Operace, které je možno následně aplikovat, jsou podstatně intuitivnější a výkonnější, neboť pracují s vlastnostmi dokumentů, nikoli přímo s dokumenty.

Jedním z nejjednodušších uplatnění - ale přitom velice efektivní aplikací - takto definovaných metadat by mohlo být například vybudování hledacího stroje, který by ve svých relačních strukturách neobsahoval indexy vybudované na základě pouhé přítomnosti slova v textu, ale obsahoval by ve svých indexech metadata dokumentů. Tyto indexy by měly mít vícerozměrnou strukturu zahrnující strukturovaná metadata, která by umožňovala definovat dotaz na základě logických podmínek kladených na jednotlivé explicitně vyjádřené vlastnosti dokumentů. Hledací stroje postavené nad těmito indexy by poté mohly pracovat s podmínkami položenými například pouze na extrakty z medicínských časopisů vydaných v Evropě v letech 1991-1993.

Pravděpodobně by díky zmenšení významu referenčních stránek došlo k omezení NEA efektu a tím k podstatnému zmenšení úsilí, které je třeba věnovat na ověření validity odkazů referenčních dokumentů. Předpokládáme také, že dalším důsledkem by bylo odstranění nutnosti pracovat s jednotlivými dokumenty pouze na základě jejich vzájemných odkazů a současně umožnění práce se skupinami dokumentů na základě jejich vlastností definovaných v metadatech. Na druhé straně je třeba připustit možnosti dalších nežádoucích efektů, které by se mohly projevit například v důsledku zrcadlení dokumentů na internetovských serverech bez konzistentního zrcadlení metadat.

4 Dublin Core

Výše uvedená úvaha o přínosu metadat dokumentu pro práci uživatele není pochopitelně ojedinělá. Tato je snad jen více vedena pohledem ze strany DSS. Existuje pochopitelně mnoho projektů, které se pokoušejí definovat vhodný formát metadat a způsoby jejich budování a údržby.

Mezi systémy, které stojí za pozornost i z pohledu případného budování vícerozměrných indexů nad dokumenty Internetu, je jedním z nejzajímavějších systém Dublin Core. Jako základní odkaz zde doporučujeme http://www.ics.muni.cz/dublin_core. Pro zájemce z řad příznivců DSS navíc doporučujeme popis sémantického modelu tohoto systému IFLA semantic model popisující strukturu popisu dokumentu na základě metadat, který naleznete na http://www.dlib.org/dlib/january99/bearman/01bearman.html.

Literatura

[1]	J.H. ter Bekke. Semantic data modeling. New York : Prentice Hall, 1992.
[2]	W.H. Inmon. Building the data warehouse. Boston : QED Technical Pub. Group. c1992.

Zpět na začátek

ÚVT MU, poslední změna 14.11.2011