\"/
\"/ \"/    

Zálohování dat v METACentru

Zdeněk Salvet, Luděk Matyska, FI MU, ÚVT MU
Ročník X - číslo 5, červen 2000
Citace: Z. Salvet, L. Matyska. Zálohování dat v METACentru. Zpravodaj ÚVT MU. ISSN 1212-0901, 2000, roč. X, č. 5, s. 1-3.
Tematické zařazení: Superpočítače a gridy
 předchozí číslo | následující článek 

Zálohování dat představuje často podceňovanou, přesto velmi důležitou činnost důležitou pro to, abychom se mohli na počítače a informační technologie skutečně spolehnout. Obecná dostupnost počítačů, obrovské kapacity zejména nových disků a současně velmi podstatné zvýšení jejich spolehlivosti vedly řadu lidí k pocitu, že zálohovat data je ve své podstatě zbytečná činnost. Tento pocit v řadě jednotlivců přetrvává do té doby, než jsou jejich důležitá data (např. rozepsaný článek či práce těsně před dokončením) nenávratně ztracena v důsledku poruchy disku, zhroucení systému nebo neopatrné manipulace se soubory.

Jednoduchým řešením je samozřejmě individuální péče o data, kdy si každý jednotlivec (v nejlepším případě skupina lidí používajících společně jeden počítač) zajišťuje "zálohování" tím, že si data ve víceméně nepravidelných intervalech nahrává na jiné médium (např. druhý disk, DAT pásku, v poslední době jsou pro tento účel v oblibě ZIP či JAZ mechaniky a rovněž přepisovatelná CD-RW). Nepravidelnost a ruční přístup vede však často ke ztrátě dat (omylem se přepíší aktivní data, uživatel zapomene udělat zálohu, ...) a zejména se z pohledu organizace (nikoliv nutně jednotlivce) jedná o velmi neefektivní činnost - je nutno zakoupit zálohovací zařízení de facto ke každému počítači, cena médií pro tato malá zálohovací zařízení je poměrně vysoká (měřeno cenou za GB), velké množství lidí v organizaci dělá stejnou činnost (často na úkor původní pracovní náplně) a stejně míra zajištění není příliš vysoká. Problém rovněž nastává tam, kde je nutno zálohovat větší objemy dat - moderní disky s kapacitou 36 a více GB již nelze jednoduše zálohovat tímto způsobem (kapacita disku je mnohonásobně větší než kapacita "běžných" individuálních zálohovacích médií).

Řešením je velkokapacitní zálohování z centra (prostřednictvím vysokorychlostních sítí snadno dostupné i z koncových stanic), které je přes veškeré změny v technologiích stále nejefektivněji realizováno páskovými systémy připojenými na obslužný počítač a jeho prostřednictvím na počítačovou síť (v poslední době se začínají objevovat i přímo na síť připojená zálohovací zařízení). Každý takový páskový systém je tvořen více jak jedním čtecím a zapisovacím zařízením a zásobníkem na desítky až tisíce magnetických pásek. Výměna pásek mezi zásobníkem a vstup/výstupními zařízeními je zajištěna automaticky "robotem", který je rovněž ovládán zmíněným řídícím počítačem. Vyšší počet vstup/výstupních zařízení i velký počet použitých magnetických pásek vytváří rozumně spolehlivé prostředí (nejslabším článkem je většinou ten robot) s možnostmi velmi rychlého zápisu a obnovování dat. Ve většině případů je agregovaná propustnost čtecích a zapisovacích zařízení takového systému mnohem vyšší než propustnost sítě, kterou je systém zpřístupněn, což umožňuje využít kapacitu sítě na maximum.

Pásková knihovna Exabyte X200

Na MU byla od roku 1995 používána malá pásková knihovna s pouze jednou čtecí a zapisovací mechanikou a zásobníkem na 7 pásek s celkovou kapacitou 70GB on-line bez použití komprese. Tato kapacita však přestala zejména v poslední době stačit i požadavkům META Centra (pro nějž byla původně tato knihovna zakoupena), a nemohla tak ani poskytovat služby dalším uživatelům v rámci MU. V loňském roce byla proto v rámci výzkumného záměru CESNETu pořízena pro zálohování dat v META Centru automatická pásková knihovna (robot) Exabyte X200, která zmíněnou malou knihovnu nahradila. Nová knihovna je schopna obsluhovat 200 magnetických pásek (8mm pásky typu AME) a obsahuje 6 páskových mechanik Exabyte Mammonth 2 (každá z těchto mechanik je schopna zapisovat rychlostí 80Mbit/s, celkem je tedy teoreticky pásková knihovna v současné konfiguraci schopna zapisovat rychlostí 480Mbit/s). Celková kapacita knihovny je přibližně 12TB (12000GB) - při použití formátu Mammonth 2 lze na jednu pásku zaznamenat až 60GB dat v nekomprimovaném tvaru, při použití komprese může jedna páska pojmout podle typu zaznamenávaných dat až o 150% více než, je nominální kapacita. Knihovna je fyzicky umístěna v prostorách ÚVT MU a je připojena k počítači nimloth, který již dříve sloužil jako hlavní souborový a zálohovací server META Centra.

Zálohovací software

Řízení knihovny a přístup k ní je zajišťován zálohovacím software NetWorker firmy Legato, který byl pořízen současně s knihovnou. Kromě programů pro ovládání samotné knihovny (zavádění pásek do mechanik a jejich vracení do zásobníku, označování a inventarizace médií, čištění hlav páskových mechanik apod.) obsahuje NetWorker zejména nástroje pro centralizované zálohování v počítačových sítích.

NetWorker je systém typu klient-server. Serverová část běží na stroji, ke kterému je připojena pásková knihovna, a k němu se z počítačů, jejichž data se mají zálohovat, připojují klientské programy, které na server ukládají data při provádění záloh nebo na vyžádání uživatele obnovují data ze záložní kopie (spravované serverem na páskách) na lokální disky. Při použití NetWorkeru je většina činností při vytváření záloh řízena centrálně ze serveru a správci zálohovaného počítače stačí pouze provést jednorázové činnosti:

V naší instalaci NetWorkeru podporujeme klientské stroje s většinou běžných operačních systémů Unixového typu (zatím máme stroje s OS Solaris, IRIX, NetBSD a Linux) a Windows NT (ve verzi 4.0, testování klientského softwaru na Windows 2000 probíhá v době psaní tohoto článku). Klientský software pro systém Novell NetWare však zakoupen není. V případě potřeby zálohování stroje s jiným operačním systémem nebo zálohování zvláštních dat (např. databázového systému) je většinou možné dokoupit licenci na příslušné programové vybavení (pokud je v nabídce firmy Legato), případně zálohovat zprostředkovaně přes jiný stroj (např. využitím sdílených disků) nebo jiným podobným způsobem.

Konfigurace zálohovaných adresářů a souborů není v NetWorkeru ani ve víceuživatelských systémech výlučnou záležitostí správců: pokud to není správcem zakázáno, každý uživatel může jednoduše určovat, které ze svých souborů nechce zálohovat nebo se kterými se má nakládat nestandardním způsobem. Tuto volbu provede tak, že v příslušném adresáři vytvoří tzv. soubor direktiv .nsr, do něhož zapíše své požadavky. Například text "skip: smaz.mne tmp/*" v souboru .nsr způsobí, že se nebude do záloh ukládat soubor smaz.mne a soubory, které se nachází v podadresáři tmp (samotný adresář tmp se ale zaznamená a při obnově ze zálohy by se obnovil jako prázdný).

Režim zálohování

Časový plán záloh je v principu možné volit v NetWorkeru zvlášť pro každý zálohovaný počítač a v omezené míře dokonce pro jednotlivé adresáře, ale pro optimální využití kapacity zálohovacích médií (hlavně pásek) je vhodné v co největší míře používat plán společný. Hlavní rozvrh, který je v současné době používán pro METACentrum a další zálohované kapacity, určuje, že se změněné soubory zálohují třikrát týdně (v pondělí, ve středu a v pátek večer) a jednou měsíčně se provádí úplná záloha, která obsahuje úplně všechny soubory (samozřejmě kromě těch, které jsou přeskakovány v souladu s obsahem direktiv .nsr). Všechna zazálohovaná data jsou na serveru udržována po dobu nejméně dvou měsíců (skutečná historie může být podle aktuálního obsazení médií i podstatně delší) a při případné obnově dat ze zálohy je možné načíst stav k libovolnému datu z těchto dvou měsíců.

Zálohu je možné provést i ručně mimo normální časový plán, po dohodě se správcem zálohovacího serveru je takto možné vytvářet i archivní kopie dat pro dlouhodobější uložení (životnost takových archivů je ovšem omezena použitou technologií - životnost dat na magnetických páskách je kratší a riziko poškození média při jakékoli manipulaci větší než např. u CD-R). Dlouhodobé udržování dat na magnetických páskách je možno zajistit opakovaným přepisováním pásek (např. jednou ročně) - podobné požadavky je rovněž nutné konzultovat se správcem zálohovacího serveru.

Velké možnosti má NetWorker i v oblasti obnovy dat. Na serveru je uchovávána databáze všech zazálohovaných souborů, s jejíž pomocí klientské programy pro obnovu souborů (řádkový program recover a jeho grafická verze nwrecover) umožňují uživateli procházet uloženými daty podobně, jako by to byly běžné soubory na lokálním disku. Klientské programy po spuštění implicitně zobrazují stav souborů na klientském počítači v době ukládání poslední zálohy, ale je možné jim zadat jiné datum či čas (příkazem changetime), ke kterému má být zobrazen stav adresářů a souborů. Po zvolení žádaného data je možné pomocí příkazů cd a ls jako v Unixovém shellu nebo myší v zobrazeném stromu procházet a vybírat jednotlivé soubory, adresáře či adresářové podstromy pro obnovu (v řádkové verzi příkazem add, v grafické označením myší). V případě potřeby je možné k libovolnému souboru nechat zobrazit seznam všech jeho uložených verzí. Po vybrání žádaných souborů je ještě možné určit, zda se mají obnovit na původní místo (to je implicitní volba) nebo do nějakého jiného adresáře - to je velmi užitečné například v případě, že chceme porovnat současný obsah souboru s jeho kopií, která bylo uložena před delší dobou do zálohy. Nakonec je spuštěna samotná obnova, která probíhá automaticky bez nutnosti zásahu uživatele, pokud není vyžadováno potvrzování při přepisu existujících souborů.

Využití zálohovacího systému

Pásková knihovna v první řadě slouží pro zálohování dat META Centra na počítačích nejen na MU, ale i v Praze (UK) a Plzni (ZČU). Vzhledem k vysoké kapacitě pořízené knihovny se současně předpokládá, že volné kapacity mohou být využívány i pro další účely, související s výzkumnou a vývojovou činností škol a případně i ústavů AV ČR. Na Masarykově univerzitě je možno páskovou knihovnu a její služby využívat prostřednictvím fakultních informatických pracovišť. Zájemci o speciální využití či požadavky na skutečně velké objemy dat se mohou obrátit přímo na prvního autora příspěvku, který je současně správcem zmíněné páskové knihovny.

Zpět na začátek
ÚVT MU, poslední změna 14.11.2011