\"/
\"/ \"/    

WWW - Jak informace najít a nehledat (celou noc)

Václav Matyáš, FI MU
Ročník VI - číslo 5, červen 1996
Citace: V. Matyáš. WWW - Jak informace najít a nehledat (celou noc). Zpravodaj ÚVT MU. ISSN 1212-0901, 1996, roč. VI, č. 5, s. 6-11.
Tematické zařazení: Webové zdroje a technologie
 předchozí článek | následující článek 

Mnozí z nás mají "své" metody k prohledávání prostoru WWW, případně prohledávají svými oblíbenými vyhledávacími nástroji. Avšak ne všichni využívají všech možností, které jsou k dispozici, a proto bych se rád stručným výčtem o těch nejpodstatnějších zmínil.

Pokud se mne někdo zeptá, jestli je na Internetu program XY - zpráva AB - adresa JD, pak je moje případná odpověď "Ano" na 99% správná. Ze slušnosti (a pro zamezení přílišného optimismu i vlastního zatížení) však raději dodávám "ale neřeknu přesně kde to hledat". Snažím se poradit alespoň jak hledat.

Nejlepší ilustrací jsou konkrétní příklady - proto jsem si zvolil jako téma jadernou energetiku a prohledával prostor WWW na klíčová slova a jejich kombinace

a vyzkoušel jsem řadu tzv. prohledávacích nástrojů u nás i v zahraničí (srovnání výsledků - viz část 2 dále v textu). Mnozí z nás znají známé Yahoo, ale tomu během posledních dvou let vyrostla řada zdatných bratříčků. Jedná se v současné době o velmi dynamické odvětví a investované částky se pohybují řádově i v desítkách miliónů (u těch nejambicióznějších). U většiny těchto služeb také uvidíte výrazná oznámení o přijímání nových odborníků a také o částečné či úplné podpoře služeb významnými počítačovými firmami, jako jsou Digital, Silicon Graphics, SUN, IBM, Netscape atd.

Je jasné, že nelze při zadání dotazu prohledávat Síť on-line. Je nutno se spolehnout na vlastní databázi, systém indexování a vyhledávání a data průběžně doplňovat prohledáváním neprobádaných a pozměněných částí pavučiny. Proto se nedivte, že na váš první dotaz bude vráceno Y odpovědí - a pokud jej zopakujete za několik hodin, můžete dostat odpovědí od stejného zdroje až 2xY. Prohledávací nástroj totiž reaguje na váš dotaz nejen poskytnutím odpovědi, ale někdy také prohledáním všech nalezených spojení znovu on-line - čímž se určitě jeho "obzor" rozšíří.

Užitečným tipem číslo 1 je zadat hledání informací na WWW opakovaně po několika hodinách (tedy pokud již při prvním zaslání odpovědi nejste rozsahem dostupných informací zahlceni).

Výsledky porovnávání prohledávacích nástrojů také nelze paušalizovat. Často pracují na odlišném principu a v některých případech jsem si připadal, jako že se pokouším o porovnávání neporovnatelného. Někdy služby prohledávají své databáze při zadání klíčových slov komplexně a vyhledají i slova, ve kterých je vámi zvolené slovo jako část řetězce. Jindy zase zvažují klíčové slovo jen jako počáteční část řetězce (např. temelin - temelinde - temelini) a v některých případech jsou porovnávána jen celá slova. Také klasickou booleovskou algebru najdete vylepšenu o operátory jako NEAR, případně máte možnost nastavit toleranci odlišnosti, kritéria souladu a počtu výskytů klíčových slov v dokumentu či jeho záhlaví atd.

Berte proto výsledky v úvahu řádově a vyzkoušejte si nástroje a služby nejen podle čísel v tabulce, ale i podle vlastní spokojenosti a úvah. Pokusím se vám nabídnout hrubé rozčlenění služeb do několika kategorií - v dané kategorii pak lze považovat služby za přibližně stejně výkonné.

1  Vyhledávací služby WWW

ALIWEB

http://web.nexor.co.uk/public/aliweb/search/doc/form.html

Tato prohledávací služba patří mezi jedny z nejslabších. Ovšem má některé zajímavé myšlenky a také je umístěna na serveru NEXOR, který mimo této služby nabízí mnohé zajímavé informační zdroje a služby. Rozhodně doporučuji v nějaké volnější chvíli http://pubweb.nexor.co.uk/public/welcome.html navštívit.

ALIWEB se mi jevil jako výsledek práce jednotlivce nebo malého týmu zapálených nadšenců a rozhodně mu chybí lepší marketingová podpora. Podpora a zavedení týmové práce by také určitě neškodily (pokud jsou ovšem fondy...). Podle informací na serveru se také uvažuje o spolupráci s týmem vyvíjejícím Harvest (o jedné verzi Harvestu v ČR se dozvíte dále).

Alta Vista

http://altavista.digital.com/

Tuto prohledávací službu lze charakterizovat stručně jako - No.1. Jedná se opravdu o bezkonkurenční jedničku ve výkonu (jak rozsahem nalezených informací, tak i rychlostí) a patří také mezi nejlepší nástroje s ohledem na jednoduchost obsluhy a uživatelské prostředí. Samozřejmostí jsou strukturované dotazy s použitím AND, OR, NOT a NEAR. Mezi drobné zajímavosti patří např. možnost vyhledávat spojení na vlastní WWW stránku s výjimkou odkazů z vlastního místa v pavučině. Dotazy lze specifikovat na dvou úrovních (Simple Query a Advanced Query), k některým informacím členěným dle tématických celků se lze dostat přes Surprise (zařazuje do vybraných kategorií náhodně vybrané tipy), část kódu v HTML pro zařazení možnosti vyhledávání přes Alta Vista je k dispozici v části Tips.

Jedná se o zkušební projekt firmy Digital Equipment Corp. v Research Laboratories Palo Alto. Hardware je samozřejmě DEC - pro vlastní Alta Vistu je to AlphaStation 250 4/266 s 256 MB paměti a 4 GB diskem, pro Web Indexer pak AlphaServer 8400 5/300 s 6 GB paměti, 10 procesory a 210 GB RAID diskem a pro další části systému (např. prohledávání Usenet news - viz příští číslo) další dvě AlphaStation (250 4/266 a 400 4/233) a DEC 3000 Model 900. Všeho všudy se jedná o železo s kapacitou paměti přes 7,5 GB a disky 281 GB.

Tomu také odpovídá rychlost. Alta Vista není rychlá - je superrychlá. A uživatelé si toho váží - k 27.3. měla Alta Vista 300 miliónů návštěv (od 15.12.1995) a koncem března měla přes 6 miliónů návštěv denně! A proč také ne - mimo úžasné rychlosti máte jenom v části vyhledávání na WWW přístup k 11 miliardám slov nalezených na 22 miliónech webovských stránek (údaje k 1. dubnu 1996).

Jak jsem také uváděl v začátku záležitost dohledávání odkazů, byla u Alta Visty věc evidentní. Na své dotazy (viz první tabulka) 1, 2 a 3 jsem dostal ráno 184, 128 a 34 nalezených WWW stránek. Po zopakování prohledávání po 4 hodinách to již bylo 386, 336 a 148.

CUI W3 Catalog

http://cuiwww.unige.ch/w3catalog

Jeden z univerzitních projektů - mezi adresami různých zdrojů a databází lze nalézt mj. ženevskou a bernskou univerzitu. Aplikace služby byly z velké části programovány v Perlu, jehož prostřednictvím lze také dodávat další části, formulovat některé složitější dotazy nebo dotvářet a modifikovat části softwaru.

Rychlostí ani rozsahem výsledků mne služba nijak nezaujala.

Excite

http://www.excite.com/

Excite patří k nižší střední třídě prohledávačů, ale lze očekávat vývoj k lepšímu. Služba je financována velkou částí z reklamy (při delší práci si jistě povšimnete často se měnících reklam a oznámení na každé ze zasílaných stránek). Excite se také těší částečné podpoře firmy Sun Microsystems a je provozována na 8-CPU SPARCserveru 1000E.

Mimo prohledávání databáze WWW stránek (koncem března okolo 11,5 miliónu) je k dispozici také prohledávání Usenetu, výhradně inzerce na Usenetu, podrobné rešerše některých WWW stránek atd.

Galaxy

http://galaxy.einet.net/

Služba Galaxy je provozována společností TradeWave a mimo WWW stránek umožňuje také prohledávání gopherovského prostoru a některých služeb dostupných přes telnet.

Výsledky nebyly nijak ohromující a službu řadím na konec hlavního pelotonu.

Harvest Broker - SkyNet

http://ns.www.cz/Harvest/brokers/SkyNet/

Nekupuji výhradně české výrobky a nemám po kanceláři nálepky "Czech Made". Snažím se spíše kupovat dobré výrobky - ať již z Kanady, Norska, Hodonína či Plzeňska. Proto i k Harvest Brokeru umístěnému na serveru společnosti SkyNet mám své výhrady, ale k práci na "vyloženě české" problematice jej mohu vřele doporučit. Je dobré kombinovat takto získané výsledky s výsledky získanými jinými prohledávači mimo ČR.

Pro rozsáhlé prohledávání je značně pomalý - a to především pokud bude pracovat na "nečeských" termínech, k nimž najde ve své databázi spoustu linek na servery po širém světě... Jeho databáze je poněkud skromná - koncem března to bylo 25019 záznamů z 205 různých serverů.

Inktomi

http://inktomi.berkeley.edu/

Služba patří mezi jedny z velmi úspěšných univerzitních projektů (nutno zmínit jména postgraduálního studenta Paula Gauthiera a profesora Erica Brewera) a osobně bych jí věštil dobrou budoucnost. Slovo "Inktomi" pochází jednak ze slovní hříčky "ink to me" (napiš/napoj se na mne), ale je to také jméno mytologického pavouka prérijních Indiánů, který přinášel poznání a kulturu, ale nebyl miláčkem široké veřejnosti.

Inktomi využívá paralelních procesů a technologie - v současné době běží na čtyřech stanicích Sun SparcStation 10 (podpora projektu přichází ze strany Sun Microsystems a také agentury ARPA) a je součástí většího projektu NOW (Network of Workstations) na University of California.

Služba je opravdu velice rychlá a má vynikající jednoduchý uživatelský interface. Rozhodně patří mezi nejlepších pět - její vývoj však těžko předvídat (záležitosti univerzitních projektů a grantů jsou téma samo pro sebe).

Lycos

http://www.lycos.com/

Mimo samotného vyhledávání podle klíčových slov nabízí Lycos také jednoduchou kategorizaci některých stránek (podobně jako Yahoo). Podle velkých slov tvůrců je jediným skutečným průvodcem po Internetu, což nelze řadit jinam než do kategorie "velkých slov" (slušně řečeno).

Služba je poměrně rychlá a patří také mezi velkou pětku. Interface je, až na drobné mušky, jednoduchý na obsluhu. Ke konci března bylo v databázi údajně přes 34 miliónů různých URL, ovšem výsledky vyhledávání tomu (ve srovnání s Alta Vistou či Inktomi) neodpovídají. Samozřejmě - nejde jen o rozsah zpracovaných dat, ale především o to, jak byla zpracována.

Magellan

http://www.mckinley.com/

Magellan je pojmem, který ve světě WWW nabývá neustále na popularitě. Společnost McKinley Group totiž nabízí nejen prohledávací nástroj, ale i velké množství "přidané hodnoty". Mj. hodnotící tým prochází některé stránky a hodnotí jejich obsah na kvalitu a zajímavost (zkušenější surfeři již určitě po několik měsíců potkávají na svých cestách hvězdičky Magellanu) a také na nezávadnost pro nezletilé publikum - ve svých tipech uvádí u materiálů, které jsou "nezávadné" (výslovně tedy "neobsahují žádné informace určené jen dospělému publiku"), zvláštní značku - zelené světlo (Green Light) malého semaforku.

Udělování hvězdiček probíhá na základě kategorií (max. 10 bodů v každé kategorii):

A podle získaných bodů jsou přiděleny hvězdičky - čtyři za 28-30 bodů, tři za 22-27 bodů, dvě za 13-21 bodů a jedna pouhá za 1-12.

Magellan běží na počítačích Silicon Graphics a očekává se brzy nabídka této palety služeb i v dalších jazycích - francouzštině, němčině a japonštině. Mimo vyhledávání podle klíčových slov je k dispozici jednoduchá kategorizace. V současné době není databáze příliš rozsáhlá (koncem března necelé dva milióny zmapovaných WWW stránek), ale intenzita práce se jeví jako příslib úspěšné budoucnosti.

Při prohledávání databáze se Magellan nedostal mezi pět nejlepších ohledně výkonu, to se ale během několika měsíců pravděpodobně změní. Také se, doufejme, do budoucna patřičně zvýší rychlost vyřizování dotazů. Vynikajícím prvkem je možnost postupného zjemňování výběru a velice vydařený uživatelský interface.

NlightN

http://www.nlightn.com/

Služba je poměrně nová, ovšem nejedná se primárně o prohledávač pavučiny, ale spíše o informační katalog - mj. obsahuje i některé knihovní záznamy (knihy ap. lze Sítí i objednávat) atd. Rychlost vyhledávání je průměrná a výsledky také.

Tribal Voice

http://www.tribal.com/search.htm

Cílem Tribal Voice je spíše informovat o původních obyvatelích Severní Ameriky a nikoliv proniknout do světa velkého byznysu.

Tomu také odpovídá úroveň jejich prohledávače - rozhodně žádný z "top" kandidátů. Server ale obsahuje některé jiné zajímavé informace a při surfování stojí za to na http://www.tribal.com zabloudit.

UCSTRI - Unified Computer Science TR Index

http://www.cs.indiana.edu:800/cstr/

Jedná se o prohledávač vhodný pro problémy související spíše s akademickou stránkou Computer Science. Aplikace je vyvíjena postgraduálním studentem Marcem VanHeyningenem na Computer Science Department, Indiana University.

Pokud tedy hledáte výzkumné a technické zprávy či jiné podobné materiály, pak je adresa velice užitečnou. Pro jadernou energetiku ale určitě ne...

WebCrawler

http://webcrawler.com/WebCrawler/WebQuery.html

WebCrawler začal - jak jinak - jako univerzitní projekt a v současné době už se svých plenek rychle zbavuje. Z Department of Computer Science and Engineering na University of Washington se přesunul do stájí America Online, kde začal fungovat jako bezplatný vyhledávací nástroj pro práci se Sítí. America Online (AOL) tím loňského roku výrazně posílila své pozice pro boj o Síť (či spíše její budoucí uživatele).

Vynikající je především uživatelské rozhraní a velice rychlé spojení na Síť. S rychlostí vyhledávání je to už horší, ale to je právě oblast, na které se v AOL pracuje a tak uvidíme.

Yahoo

http://www.yahoo.com/

Tato služba je poměrně známou stálicí oblasti prohledávacích aplikací a navíc je vynikajícím prostředkem především pro tématickou kategorizaci nejčastěji prohledávaných stránek a zdrojů. Pokud tedy nehledáte podle klíčových slov ale podle témat, pak je jedním z nejlepších zdrojů. Mimochodem, Yahoo je akronym od "Yet Another Hierarchical Officious Oracle" (volně přeloženo "zase další nadřazené dotěrné orákulum").

Vývoj služby začal (kdysi dávno -) v dubnu 1994 dvěma postgraduálními studenty na Stanford University a je tedy příkladem úspěšné transformace akademického projektu v projekt komerční. Začátkem loňského roku byli "otcové" Yahoo David Filo a Jerry Yang vybídnuti Marcem Andreesenem (ano, je to ten nový soupeř Billa Gatese, zakladatel Netscape Communications) k přesunutí obrovských databází na servery firmy v budovách firmy Netscape.

Mimo Netscape patří k partnerům firmy také Internet Systems Inc., Reuters New Media Inc., Interactive Marketing Inc. a Internet Profiles Corp. - čili pestrá paleta činitelů na trhu s informacemi a Internetem. I když Yahoo při testování schopností vyhledávání podle klíčových slov nijak neoslnilo, tak jej nelze ani v této kategorii do budoucna odepisovat. Podmínky k vývoji více než příznivé.

"Dohledávací" mechanismy Yahoo také vykazovaly zajímavou charakteristiku. Když jsem zopakoval své dotazy po čtyřech hodinách, zůstalo v kategoriích 3-6 vše při starém. Ale "Temelin", který v prvním hledání nalezen nebyl, se najednou nabídl v deseti různých WWW dokumentech a "Dukovany" si polepšily ze 4 na 5. Bude to pravděpodobně tím, že mechanismy Yahoo se snaží prioritně vyhledat dokumenty, kde Yahoo neuspělo vůbec či málo.

Zajímavá je i informace, že Yahoo dává k dispozici zvláštní službu pro mládež ve věku 8-14 let. Yahooligans (s titulkem Stay Street Smart on the Web) nabízí informace v kategoriích zajímavých pro tuto věkovou kategorii - http://www.yahooligans.com/text/.

2  Porovnání vyhledávacích služeb na příkladech

Jako klíčová slova jsem si zvolil z poloviny záležitosti "ryze české" (ovšem zvláště na německých a rakouských serverech bylo informací o našich jaderných elektrárnách bohatě) a také "klasiku" v angličtině. Prostě jsem se pokusil vžít do role konzultanta hledajícího informace pro stanovení koncepce výměny informací informačního systému jaderné elektrárny s okolním světem. "Co na tom Internetu tedy vlastně o naší problematice je?"

    
IndexKlíčové slovo/kombinace
1Temelin
2Dukovany
3jadern
4nuclear
5nuclear (AND) power
6nuclear (AND) power (AND) information (AND) system

Výsledky práce jednotlivých prohledávacích služeb pak byly následující:

    
Služba      1             2             3             4             5             6      
ALIWEB0 00 400 0
Alta Vista386 336148 20000050000 20000
CUI W30 00 281 0
Excite15 34 4849 0
Galaxy0 00 21620 1
 Harvest SkyNet 15 2118 >500466 256
Inktomi6 68 254197985 4383
Lycos42 554 28795219 0
Magellan1 10 >1000841 569
NlightN8 10 18007251 0
Tribal Voice0 00 17210 0
WebCrawler9 50 43411233 609
Yahoo10 40 25218 0

Poznámka: Vyhledávání probíhalo 1.4.1996 a v potaz byly brány jen WWW zdroje.

3  Metaindexy

Mezi zajímavé služby při prohledávání internetovského prostoru patří i takové, které nemají vlastní vyhledávací nástroj a databázi, ale spíše zajišťují komunikaci s více prohledávači a jejich paralelní zásobování vámi zvolenými dotazy. Služby mohou být vhodné pro opravdu nahodilé hledání, ovšem pokud na Síti budete hledat informace častěji, pak vás asi jejich zpomalení při přenosu informací i komplikace při složitých dotazech od jejich používání odradí.

Pokud si je ale přejete vyzkoušet, pak pro vás mám tuto nabídku:

infoMarket

http://www.infomkt.ibm.com/home.htm

Služba je provozována Velkou modrou. Je ale až nehezky pomalá a odpovědi na většinu dotazů (i mimo jadernou energetiku) mne příliš neohromily. V některých případech ovšem lze nalézt informace poměrně zajímavé, protože mezi zdroje informací patří mj. CIA World Factbook 1995, COMTEX Newswires, Hoover's Business Resources, Magellan Internet Directory, Yahoo i zprávy na Usenetu.

Metasearch

http://metasearch.com/

U této služby lze zasvěceným (Síti) jen prozradit jméno Scott Banister a nezasvěceným doporučit - pokud vám nevyhovuje žádná jednotlivá prohledávací služba, pak není nic lepšího než Metasearch! Najdete mj. i archivy softwaru, slovníky atd.

Pathfinder

http://pathfinder.com

Služba spojená s prohledávačem LYCOS. Nepříliš zajímavá.

SavvySearch

http://savvy.cs.colostate.edu:2000/form
resp.
http://guaraldi.cs.colostate.edu:2000/form?lang=czech

Poměrně zajímavá služba Colorado State University. "Dotazuje" 25 prohledávačů (4.4.1996) - mj. i Alta Vista, Infoseek, Inktomi, Lycos, Pathfinder, Tribal Voice, WebCrawler a Yahoo. (Ke všem prohledávaným službám zde také lze nalézt linky.)

Další užitečnou vlastností je možnost komunikace v 18 jazycích - mj. i v češtině (cestine) a slovenštině.

4  Osobní tipy

Hledání podle klíčových slov

Já osobně jsem po téměř ročním používání Yahoo přešel v lednu s nadšením na Alta Vistu - a nelituji. Zběžným pohledem na tabulku i zvážením pohodlnosti obsluhy a rychlosti můžu klidně říci, že se jedná o naprosto nejlepší vyhledávací službu pro hledání podle klíčových slov.

Do další skupiny se za Alta Vistu řadí dvě dvojice - Inktomi a Lycos, následovány NlightN a WebCrawler. Za touto pěticí služeb pak následuje více či méně neuspokojivý zbytek.

Hledání podle kategorizace témat

Tady nelze než doporučit zůstat u klasiky - Yahoo, případně se také soustředit na Magellan - oba se budou v (blízké) budoucnosti určitě zdárně vyvíjet. A nelze zapomenout ani na WebCrawler a Lycos.

Hledání ... špecifík

Pokud hledáte zajímavé informace k Síti obecně, pak doporučuji NEXOR (viz ALIWEB).

Pro pátrání po literatuře, softwaru a jiných rozmanitých informacích doporučuji buď NlightN nebo Metasearch.

K vyhledávání informací souvisejících s Computer Science je dobrý UCSTRI.

Pro brouzdání českými luhy a háji doporučuji Harvest Broker u SkyNetu či jiné WWW stránky na www.cz, Český národní navigátor "U zdroje" http://www.uzdroje.cz/, Seznam českého Internetu http://www.seznam.cz/, případně kategorizovaný seznam CZ List od firmy DCIT na http://www.dcit.cz/CZ list/index.html.

Zpět na začátek
ÚVT MU, poslední změna 14.11.2011