\"/
\"/ \"/    

Vyhledávání v Internetu a DUBLIN CORE

Miroslav Bartošek, ÚVT MU
Ročník IX - číslo 4, duben 1999
Citace: M. Bartošek. Vyhledávání v Internetu a DUBLIN CORE. Zpravodaj ÚVT MU. ISSN 1212-0901, 1999, roč. IX, č. 4, s. 1-4.
Tematické zařazení: Různé, Standardy
 předchozí číslo | následující článek 

Úvod

Obrovská informační exploze vyvolaná rozšířením Internetu zejména po nástupu technologie World Wide Web (první grafický volně dostupný www-prohlížeč Mosaic přišel na svět v roce 1993) nebyla doprovozena stejně tak radikálními změnami v technologiích pro prohledávání této "sítě sítí". Podobně jako dřívější informační služba Gopher spoléhá i dnešní Web v podstatě na dvě základní třídy Internetovských vyhledávacích nástrojů: na vyhledávání podle "klíčových" slov (hledání zadaného slova v textu dokumentu) a na předmětové katalogy (procházení tématicky a hierarchicky uspořádané sbírky odkazů). Současná podoba obou těchto nástrojů trpí závažnými nedostatky při pokusu o řešení základního problému, kterým je efektivní a účinná orientace v obrovském a stále narůstajícím prostoru velmi různorodých elektronických informačních zdrojů.

Informační specialisté poměřují kvalitu procesu vyhledávání informací termíny výtěžnost (recall) a přesnost. Pokud naše vyhledávání nenajde větší množství relevantních údajů, máme špatnou výtěžnost. Jsme-li zavaleni množstvím irelevantní informace, máme malou přesnost. Pro většinu případů je výtěžnost a přesnost v rozsahu 10-20% považována za přijatelnou. Zkušenosti s webovskými vyhledávači naznačují však výrazně horší výsledky - v mnoha případech jdoucí hluboko pod jedno procento. Automatické vyhledávače v Internetu vrací velké množství irelevantní informace především z toho důvodu, že buď nemají žádné nebo mají jen velmi skromné prostředky na to, aby mohly odlišit v textu dokumentu důležitá slova od nedůležitých. Pokud bychom mohli zaměřit naše vyhledávání na slova použitá v roli významných termínů nebo na slova identifikující jejich správnou roli (např. slovo Zelený pouze jako jméno autora a ne v žádných jiných významech), pak by bylo možné podstatně zvýšit přesnost vyhledávání. Nástrojem k dosažení tohoto cíle mohou být metadata umožňující identifikovat hlavní koncepty informačního zdroje a jeho různé charakteristiky. Vhodná metadata mohou zlepšit nejen přesnost vyhledávání, ale i jeho výtěžnost. Často není relevantní informace nalezena například z toho důvodu, že je uložena v jiném typu informačního zdroje (obrázek, databáze, pdf-soubor, netextový soubor), než je typ zdrojů prohledávaných vyhledávacími roboty (nejčastěji www-dokumenty ve formátu HTML). V jiných případech je potřebná informace uložena v lokálních repozitářích, které jsou z www-prostředí vůbec nedostupné (typickým příkladem jsou "zděděné" informační systémy vytvořené a provozované s využitím před-internetovských technologií). Metadata mohou umožnit vyhledávačům "vidět" a indexovat i takovéto informační zdroje.

Metadata

Metadata - neboli data o datech1 - jsou v nejrůznější podobě využívána již dlouho v mnoha oblastech zabývajících se uchováváním a zpřístupňováním informací. V knihovnách je příkladem metadat katalogizační záznam, ať již v klasické lístkové podobě nebo ve formě elektronického záznamu v automatizovaném knihovním systému. Podobně jako katalogizační záznam v knihovně, musí i metadata v Internetu podporovat celou škálu funkcí. Typicky jde o funkce související s vyhledáváním; příkladem jsou funkce dokumentační (popis důležitých charakteristik informačního zdroje), identifikační (jednoznačná identifikace nezávislá na čase a prostoru), vyhledávací (zjištění existence zdroje), lokalizační (kde je zdroj umístěn), selekční (výběr zdrojů na základě jejich jmenných či věcných charakteristik) atd.

Ambice metadat jdou však mnohem dále, než je "jen" oblast vyhledávání. Poznatky z řady nově se rozvíjejících oblastí, jako jsou Digitální knihovny nebo E-commerce, potvrzují klíčovou roli metadat pro integraci a interoperabilitu mezi různými informačními systémy a repozitáři pracujícími s různými formáty a aplikačními protokoly, stejně tak jako pro řízené zpřístupnění vyhledané informace v rámci odpovídajícího sociálního, legislativního a obchodního prostředí (patří sem i podpora funkcí souvisejících s ekonomikou anebo ochranou autorských a vlastnických práv) nebo pro hodnocení kvality informačního zdroje.

Vazba mezi metadatovým záznamem a zdrojem, který popisují, může být v zásadě dvojí:

  1. metadatový záznam je uložen samostatně a odděleně od zdroje (viz příklad katalogizačních záznamů v knihovně)
  2. metadata jsou vnořena (embedded) přímo do samotného zdroje (například pomocí značek u dokumentů v jazyce SGML, HTML apod.)

Vznik a vývoj standardu Dublin Core

V březnu 1995 zorganizovala společnost OCLC2 ve spolupráci s NCSA (National Centre for Supercomputer Applications) pracovní seminář v americkém městě Dublin, na němž se sešlo přes padesát předních odborníků z různých oblastí (počítačoví specialisté, informační pracovníci, knihovníci, zástupci předních světových nakladatelů) zabývajících se problematikou metadat. Cílem semináře bylo pokusit se shodnout na minimálním univerzálním popisu informačního zdroje, který by mohl posloužit všem skupinám uživatelů v oblastech vytváření, vyhledávání a získávání elektronických zdrojů. Tento popis měl být dostatečně jednoduchý, aby na jedné straně umožnil i nezaškoleným autorům a "nakladatelům" na Internetu vytvářet své vlastní metadatové záznamy pro širokou škálu různých typů elektronických informačních zdrojů, na straně druhé aby poskytl - díky své jednoduchosti - základnu pro sémantickou interoperabilitu mezi jinými složitějšími formáty. Navržený standard měl též poskytnout základ pro takový typ popisu, který je vnořen do informačního zdroje (např. s využitím značky META u webových dokumentů v jazyce HTML).

Výsledkem semináře byla definice tzv. Dublinského jádra (Dublin Core, nebo Dublin Metadata Core Element Set, zkratka DC) - souboru metadatových prvků pro popis síťových zdrojů. Tato definice byla a je i nadále postupně zpřesňována a rozvíjena a to jak na pravidelných mezinárodních workshopech (zatím poslední, šestý workshop, se uskutečnil v listopadu 1998 ve Washingtonu D.C.), tak i v rámci aktivit několika specializovaných pracovních skupin3. V současnosti představuje Dublinské jádro jednoho z prominentních kandidátů pro interdisciplinární katalogizaci elektronických materiálů na Internetu. Je tvořeno 15-ti základními metadatovými prvky relativně snadno srozumitelnými vývojářům na webu (jako informace pro Internetovskou komunitu jsou zveřejněny v RFC-2413), nabízí však také nástroje pro detailnější specifikaci základních prvků umožňujících větší detailnost a flexibilitu popisu s ohledem na specifické potřeby specializovaných odborných komunit.

Základní prvky Dublinského jádra

Jak již bylo uvedeno, základem Dublinského jádra je 15 metadatových prvků (český překlad jejich definice lze nalézt na http://www.ics.muni.cz/dublin_core/DC-czech.html), logicky členěných do tří skupin:

  1. obsah zdroje:
    TITLESOURCE
    SUBJECTRELATION
    DESCRIPTIONCOVERAGE
    TYPE
  2. intelektuální vlastnictví:
    CREATORCONTRIBUTOR
    PUBLISHERRIGHTS
  3. instance zdroje:
    DATEIDENTIFIER
    FORMATLANGUAGE

Každý prvek je volitelný a opakovatelný, pořadí prvků není podstatné. Syntaxe dat pro jednotlivé prvky nebyla od počátku záměrně stanovena, k zajištění lepších předpokladů pro globální interoperabilitu se však u řady prvků předpokládá, že hodnoty prvku budou dosazovány z dohodnutých souborů autorit. Je podporováno vytvářeních národních jazykových verzí Dublinského jádra s tím, že vznikne mezinárodní registr národních standardů DC umožňující automatickou konverzi mezi národními metadatovými záznamy.

"Kvalifikace" základních prvků DC

Záhy po kodifikaci základních metadatových prvků Dublinského jádra vznikla mezi odborníky na metadata široká diskuse na téma "jak dál".

Jedna skupina - tzv. minimalisté - zastává názor, že základní motivační charakteristikou pro používání Dublinského jádra je jeho jednoduchost. Tato jednoduchost je důležitá jak pro vytváření metadatových záznamů (například autory nezaškolenými v komplikovaných záležitostech katalogizační teorie a praxe), tak také pro využívání těchto záznamů (například automatizovanými indexujícími roboty, které patrně nebudou využívat příliš detailní popisy či složitá kódová schémata). Minimalisté tvrdí, že cíl dosáhnout sémantické interoperability mezi různými informačními systémy či komunitami lze dosáhnout pouze prostřednictvím jednoduchého jádra metadatových prvků s jednotným výkladem.

Druhá skupina - tzv. strukturalisté - je ochotna akceptovat rizika plynoucí z variability standardu a poskytnout uživatelům větší flexibilitu prostřednictvím formálních nástrojů (kvalifikátorů, atributů) pro rozšíření nebo detailnější kvalifikaci základních metadatových prvků. To by mělo, podle jejich názoru, umožnit zkvalitnit proces vyhledávání zdrojů ve specifických aplikačních oblastech a tím i podpořit větší rozšíření standardu Dublin Core.

Na čtvrtém workshopu DC v australské Canbeře v roce 1997 byly navrženy tři typy kvalifikátorů:4

kvalifikátor typu TYPE:
zjemňuje/zužuje význam daného prvku; např. CREATOR.Personal, CREATOR.Corporate, CREATOR.Email - toto je příklad zápisu kvalifikátorů v tzv. tečka-notaci; kvalifikátory lze ovšem zapsat i v jiném tvaru, například CREATOR(type=personal);
kvalifikátor typu SCHEME:
vysvětluje význam dat obsažených v prvku jejich vztažením k nějakému externímu schématu; např. SUBJECT.LCSH specifikuje, že hodnota prvku SUBJECT má být interpretována jako jedno z Předmětových hesel Kongresové knihovny (Library of Congress Subject Headings);
kvalifikátor typu LANGUAGE:
určuje v jakém jazyce je zapsána hodnota prvku.

V rámci pracovních skupin Dublin Core a mnoha probíhajících projektů byla rozpracována řada návrhů na využití kvalifikátorů pro různé metadatové prvky DC (kupříkladu pro klasifikaci typů elektronických informačních zdrojů) a/nebo pro různé aplikační oblasti. Ne vždy bylo však zatím dosaženo jednoznačné shody potřebné pro formální kodifikaci, takže rozhodnutí o jejich použití je na implementátorech příslušných informačních systémů.

Další vývoj

Během uplynulých čtyř let dosáhl Dublin Core mezinárodního uznání jako primární kandidát na globální interdisciplinární popis informačních zdrojů v síťovém prostředí pro potřeby vyhledávání informací a prokázal dostatečnou životaschopnost potřebnou pro širokou podporu jeho dalšího rozvoje a využívání. Veškeré aktivity kolem DC jsou koordinovány volnou asociací metadatových odborníků Dublin Core Metadata Initiative za pokračující podpory OCLC, NSF, Kongresové knihovny a dalších významných organizací. Hlavní proudy vývoje se ubírají zhruba v následujících směrech:

Literatura

[1] Dublin Core Metadata Element Set: Reference Description
[2] H. Thiele. The Dublin Core and Warwick Framework. D-Lib Magazine, January 1998
[3] S. Weibel, J. Hakala. DC-5: The Helsinki Metadata Workshop : a report on the workshop and subsequent developments. D-LIB Magazine, February 1998
[4] W. Cathro. Metadata : an overview
[5] A review of metadata: a survey of current resource description formats, Project DESIRE - RE 1004, March 1997
setting
1 Jedna z mnoha formálních definic uvádí, že metadata jsou data sdružená s objekty, která zbavují potenciální uživatele nutnosti předběžné znalosti existence či charakteristik těchto objektů.
... zpět do textu
2 OCLC vzniklo v roce 1967 jako konsorcium knihoven 54 univerzit v americkém státě Ohio (Ohio College Library Center) spolupracujících v oblasti elektronické katalogizace a využívání elektronických bibliografických záznamů. Postupně bylo přetvořeno v mezinárodní non-profit organizaci (přejmenovanou v roce 1981 na OCLC Online Computer Library Center, Inc.) poskytující služby a výzkum v oblasti zpracování informací. Spravuje rozsáhlý souborný katalog čítající více jak 50 miliónu záznamů, na jehož vytváření a využívání spolupracuje přes 30.000 knihoven v USA i ostatních částech světa.
... zpět do textu
3 Podrobný popis všech komponent Dublinského jádra stejně tak jako všech doposud uskutečněných i aktuálně probíhajících aktivit lze nalézt na domovské stránce Dublin Core.
... zpět do textu
4 První dva z níže uvedených kvalifikátorů byly formalizovány konsorciem W3C (koordinujícím rozvoj www-technologie) jako standardní atributy značky META v HTML 4.0.
... zpět do textu
Zpět na začátek
ÚVT MU, poslední změna 14.11.2011