\"/
\"/ \"/    

Kontrola platnosti hypertextových odkazů na WWW stránkách MU

Josef Kotrba, Jaromír Ocelka, ÚVT MU
Ročník XI - číslo 4, duben 2001
Citace: J. Kotrba, J. Ocelka. Kontrola platnosti hypertextových odkazů na WWW stránkách MU. Zpravodaj ÚVT MU. ISSN 1212-0901, 2001, roč. XI, č. 4, s. 5-6.
Tematické zařazení: Dění na MU, Webové zdroje a technologie
 předchozí článek | následující článek 

 
Veřejné www stránky Masarykovy univerzity v Brně (www.muni.cz) obsahují různé druhy hypertextových odkazů vedoucích mimo jejich vlastní strukturu. Většinou se jedná o odkazy na www servery jednotlivých fakult, ústavů a dalších subjektů MU. Největší měrou jsou zastoupeny odkazy na lokální stránky pracovišť, domovské stránky studentů a zaměstnanců, ale také odkazy mimo MU (spolupracující organizace při řešení projektů, v kalendářích významných akcí apod.). Celkový počet všech evidovaných externích odkazů je cca 2000.

Jelikož se struktura dokumentů v Internetu velmi často mění, musíme počítat pouze s dočasnou platností externích odkazů. Je tedy třeba zajistit jejich průběžnou kontrolu a pročišťování nefunkčních odkazů, tím spíše, že jsou na veřejné stránky www.muni.cz navazovány i další samostatné informační subsystémy (inet.muni.cz, fakultní internetové prezentace apod.). U projektů rozsahem menších, než je www.muni.cz, lze ještě vystačit s manuální kontrolou externích odkazů, ovšem v případě www.muni.cz musel být vytvořen systém automatické kontroly odkazů.

Veškeré externí hypertextové odkazy se nacházejí v podpůrné databázi www prezentace. Jednotlivé typy odkazů jsou uloženy v různých databázových tabulkách (lokální stránky pracovišť, číselník organizací, ...) a pro potřebu průběžných kontrol jsou sjednoceny do jednoho databázového pohledu. Pomocí tohoto pohledu je synchronizována tabulka, do níž se ukládají statistické informace o funkčnosti odkazu (počet testů, počet neúspěšných testů, stav posledního testu, datum a čas posledního testu, ...). Záznamy jsou při každém testování synchronizovány (nové odkazy se do tabulky přidají, smazané se odstraní). Lze tedy velmi jednoduše zjistit, zda byl určitý odkaz někdy v  minulosti nefunkční, kdy se tak stalo naposledy atd.

Samotné testování zajišťuje skript s využitím serverové komponenty Microsoft.XMLHTTP, která umožňuje velmi elegantně získávat informace o dokumentu uloženém na daném URL pomocí příkazu HEAD protokolu HTTP. Pro účely testování totiž postačuje získat status obsažený v hlavičce odpovědi serveru. Z něj lze zjistit, o jaký problém se jedná - zda byl dokument zrušen, přesunut nebo zda jde o interní chybu serveru.

Při vytváření systému kontrol bylo zřejmé, že není možné testovat všechny odkazy najednou. Většina externích stránek se nachází na cca osmi www serverech jednotlivých fakult MU a v případě kontroly všech odkazů současně by tyto servery mohly být neúměrně zatíženy. Proto se v jedné dávce testuje maximálně 50 odkazů (prvních 50, seřadíme-li záznamy vzestupně podle data posledního testování a navíc záměrně tak, aby v jedné dávce byly odkazy na různé www servery). Jelikož se testy automaticky spouštějí pouze několikrát denně, nevzniká riziko, že bude lidská obsluha, která neplatné odkazy řeší, zahlcena hlášeními o nefunkčnosti mnoha odkazů v případě dočasného výpadku jednoho externího www serveru. Na případný nefunkční odkaz je obsluha upozorněna emailem maximálně do jednoho týdne od zrušení dané stránky (plyne z  počtu odkazů, počtu testování v jedné dávce a počtu testů za den). Mazání nefungujících odkazů však zautomatizovat nelze, neboť u některých důležitých typů odkazů (např. stránky pracovišť MU) je třeba namísto prostého smazání, zjistit u jejich webových správců odkazy nové. Nejvíce problémů logicky přinášejí osobní stránky studentů, jejichž existence je omezena dobou studia a po absolvování je jednotliví fakultní správci ruší.

Při nasazení automatické kontroly a prvním otestování všech záznamů 20.9.2000 vyšlo najevo, že asi 15% z nich je nefunkčních (v převážné míře se jednalo o stránky bývalých studentů). Při běžném provozu se nyní během jednoho týdne objeví pouze několik neplatných odkazů, takže správci www.muni.cz mohou s potěšením prohlásit, že externí odkazy prezentované na www.muni.cz v naprosté většině fungují správně.

Zpět na začátek
ÚVT MU, poslední změna 14.11.2011