\"/
\"/ \"/    

Služby ÚVT pro vědu a výzkum

David Antoš, ÚVT MU
Ročník XIX - číslo 2, prosinec 2008
Citace: D. Antoš. Služby ÚVT pro vědu a výzkum. Zpravodaj ÚVT MU. ISSN 1212-0901, 2008, roč. XIX, č. 2, s. 2-5.
verze pro tisk: PDF
Tematické zařazení: Služby pro uživatele MU
 předchozí článek | následující článek 

Ústav výpočetní techniky MU připravuje rozsáhlé rozšíření portfolia služeb, které nabízí uživatelům na univerzitě. K zaběhnutým službám, jako jsou například budování a správa počítačové sítě, elektronické informační zdroje, počítačové studovny nebo systémy pro personalistiku a ekonomiku, budou postupně přibývat další, zaměřené zejména na vědecké a výzkumné pracovníky. Hlavními nabízenými službami budou ukládání dat, hosting webových serverů a prostředí pro náročné výpočty.

V tomto článku se budeme věnovat převážně službám ukládání dat - zejména proto, že jsou už dnes dostupné v pilotním provozu a v současné době přecházíme do provozu produkčního.

1  Služby ukládání dat

Proč vlastně hodláme poskytovat ukládání dat jako službu? Nestačí snad koupit si větší disk? Jedním z hlavních úkolů tohoto článku je přesvědčit laskavého čtenáře, že tomu tak docela není.

Uživatelé se v oblasti ukládání dat setkávají typicky s alespoň jedním z následujících tří problémů:

  1. velkým objemem dat,
  2. požadavky na spolehlivost uložení,
  3. potřebou data sdílet mezi skupinou uživatelů, případně je kontrolovaně zveřejňovat.

1.1  Objem dat

Objem dat je měřítkem značně proměnlivým. Do jisté míry lze nedostatek kapacity řešit pořízením většího nebo dalšího disku, v dnešní době není problém pořídit disky kapacity přesahující 1 TB. Pokud ani to nestačí, je třeba se přesunout do kategorie diskových polí, která jsou už nezanedbatelnou položkou rozpočtu, je třeba k nim obvykle pořídit ještě řídící počítač, nejsou už zrovna nejskladnější a produkují teplo a hluk. Bez příslušného prostředí (což se týká zejména chlazení) se také diskovému poli zkracuje životnost. Celkově lze říci, že diskové pole není právě nejpříjemnější spolubydlící v kanceláři, takové zařízení patří do klimatizovaného počítačového sálu. Také správa diskového pole už není záležitostí pro byť i znalejšího uživatele, řešení problémů už vyžaduje znalost technologie.

1.2  Spolehlivost uložení

Zatímco klasické knihovny jsou budovány na ukládání na stovky let, nápisy tesané v kameni jsou čitelné i po tisíciletí, moderní technologie zpracování a ukládání dat mohou poskytnout srovnatelnou trvanlivost jen za cenu adekvátní péče o uložené materiály. Trvanlivost uložených dat je daleko skrytějším problémem než záležitost kapacity.

Přesvědčení, že uložená data jsou trvalá, vydrží uživateli do havárie disku nebo do prvního CD-R média, které nejde přečíst. Počítačové technologie sice umožňují ukládání velkých objemů dat, jejich ztráta je však většinou o to bolestnější, zejména jedná-li se o data související s měsíci či roky výzkumu. Navíc mírně poškozenou knihu lze bez problémů číst, okopírovat nebo přinejhorším přepsat, z pevného disku spadlého z metrové výšky se nemusí podařit zachránit nic.

Ani jediné diskové pole (třebaže je obvykle odolné například vůči výpadku jednoho z disků), není-li dále zálohováno, ještě nechrání před nechtěným smazáním důležitého souboru nebo třeba před živelnou katastrofou. Rozumnou zálohovací strategií je vytváření dostatečného množství kopií dat. Je zcela zásadní, aby zálohování bylo automatizované, jinak na něj uživatelé budou zapomínat. Toho lze nejsnáze dosáhnout, pokud má zálohování formu služby, o kterou se uživatel vůbec nemusí starat, pouze ví, kam se obrátit v případě, kdy o nějaká data přišel a potřebuje je obnovit.

1.3  Sdílení

Posledním zmíněným aspektem je potřeba sdílení. To může mít nejrůznější formu. Často postačí prostý přístup do sdíleného souborového systému pro skupinu uživatelů. Další možností je zpřístupnit část uložených dat definované skupině uživatelů přes webové rozhraní. Tímto způsobem jsou například realizovány dermatopatologické atlasy http://atlases.muni.cz/. Autor a správce mají přímý přístup do souborového systému, registrovaní uživatelé obrázky a popisy prohlížejí přes webové rozhraní. Je možné zapojit rozličné autentizační mechanismy, pro přístup do atlasů se například nemusejí zvlášť registrovat uživatelé federací z Dánska a Švédska.

2  Současné možnosti ukládání dat na ÚVT

V současné době nabízí ÚVT datová úložiště jako službu. To zbavuje uživatele závislosti na konkrétní technologii a starosti o ni. Data jsou ukládána na disková pole, což snižuje riziko výpadku živé kopie dat, a jsou zálohována na pásky. Páskové zálohy se provádějí denně a kromě obnovení dat v případě havárie pole umožňují získat omylem smazaná data nebo dohledat starší verzi souboru. Pásky lze po dohodě použít i k dlouhodobé archivaci.

Z pohledu uživatele je úložiště pouze "dalším vysokokapacitním diskem" v operačním systému, takže není třeba, aby se uživatel učil novou technologii: práci se souborovým systémem každý dobře zná. Standardně poskytujeme připojení protokoly Samba a NFSv4, v odůvodněných případech lze dohodnout i jiné. Úložiště je jako souborový systém přístupné po síti z více míst, například včetně domácích kanceláří. Protože síťové prostředí ne vždy dovoluje přenášet data síťových souborových systémů (je to obvyklé na konferencích, letištích a podobně, kde občas nelze rozumně použít ani služby VPN1), k datům lze přistupovat i pomocí autentizovaného webového rozhraní. Zde vycházíme z předpokladu, že webový provoz je obvykle na sítích povolen, což dává prakticky neomezenou dostupnost uložených dat.

Úložný prostor vytváříme na žádost podle individuálních požadavků. Lze vytvářet i sdílené diskové prostory vhodné pro menší spolupracující týmy (typicky jednotky uživatelů). Limity objemů dat jsou dohodnuty podle potřeb uživatele, struktura, charakter, užití a publikování uložených dat je na rozhodnutí uživatele, přičemž ÚVT poskytuje konzultační činnost.

3  Webové služby

Mnoho pracovišť na univerzitě provozuje webové stránky jako prostředí podporující vědeckou spolupráci. Kromě základních informací o laboratořích zveřejňují i rozsáhlejší data související přímo s výzkumem.

To obnáší správu fyzického hardwaru (který je potřeba mít někde fyzicky umístěn), instalace operačního systému, webového serveru, databáze, systému pro správu obsahu (Content Management System, CMS) a konečně vlastního obsahu webové prezentace. Přitom pouze obsah prezentace má odborný obsah odpovídající činnosti pracoviště, vše ostatní představuje zátěž.

Plánujeme proto hosting webových serverů, zahrnující všechny součásti od fyzického hardwaru po systém pro správu obsahu. Předpokládáme nasazení několika běžných CMS. Pokud uživatelům nebude tato nejvyšší vrstva systému vyhovovat, mohou použít CMS vlastní, který si budou spravovat sami. Mohou však použít všechny vrstvy až po databázi. Podobně bude možno rozdělit zodpovědnost i mezi nižší dvojici vrstev.

Stránky budou přístupné pod doménovými jmény třetího nebo vyššího řádu (např. http://sitola.fi.muni.cz/), podporovat budeme i napojení nezávislých domén (http://www.sitola.cz/). Zásadním prvkem webových služeb je úzké provázání s datovými úložišti, které dovolí uživatelům zveřejňovat uložená data ve formě, kterou považují za nejvhodnější pro konkrétní případ. Přístup k datům lze navázat na různé autorizační a autentizační mechanismy jako jsou federace apod.

Pro efektivní využití hardwaru a logické oddělení jednotlivých webových serverů bude použita technologie virtuálních počítačů. Využití virtuálních počítačů je ovšem daleko obecnější, jak uvidíme v následující části.

4  Prostředí pro náročné výpočty

Skupiny uživatelů, které potřebují větší výpočetní výkon, než poskytuje běžný osobní počítač, často řeší situaci pořízením vlastního clusteru. Zásadními nevýhodami tohoto přístupu jsou zejména nevyužívání dostupných zdrojů v době, kdy není velká potřeba výpočetního výkonu, a na straně druhé nedostatek výpočetních zdrojů ve fázích, kdy je uživatel intenzivně potřebuje, protože potřeba výpočetního výkonu má typicky nárazový charakter. Spotřeba energií, stejně jako úsilí nutné ke správě clusteru, jsou ovšem téměř nezávislá na míře využití clusteru. Obvyklým a velmi nesnadno řešitelným problémem je také fyzické umístění počítačů: výkonné stroje produkují teplo (a tím nutné návazné investice do chlazení) a hluk.

Na druhou stranu vlastní cluster umožňuje uživatelům provozovat prostředí vyladěné pro jejich potřeby. Pokud ovšem uživatel své výpočty provádí na pronajaté infrastruktuře, při klasickém přístupu s uživatelskými účty na sdíleném operačním systému je omezen na prostředí, které připravil provozovatel takové infrastruktury, na jím poskytovanou distribuci operačního systému a dostupný software.

Virtualizace počítačů (pro úvodní přehled tohoto tématu viz [1] a následující díly seriálu) umožňuje odstranit většinu výše uvedených nevýhod současně, logicky odděluje instalaci operačního systému a softwaru od fyzického stroje a dovoluje spouštět celé instalace operačních systémů.

Uživatel může dokonce mít v takovém prostředí správcovská práva k operačnímu systému, takže se nevzdává možnosti použít vlastní prostředí a plně jej spravovat. Předpokládáme samozřejmě poskytování standardní instalace pro uživatele, kteří nechtějí investovat úsilí do vytváření instalace vlastní.

Výpočetní zdroje budou dostupné na žádost, uživatel si vyžádá určitý počet strojů s danou instalací na určitou dobu a počet zapojených strojů lze během života clusteru měnit. Protože jsou s vysokou pravděpodobností špičkové výpočetní potřeby jednotlivých uživatelů rozloženy v čase, celková fyzická infrastruktura pro virtuální prostředí je menší, než celkové množství strojů potřebné pro jednotlivé uživatele. To přináší celkové zvýšení efektivity a spolehlivosti systému a energetické úspory. Nárazově lze používat i daleko větší výpočetní kapacitu, než by si uživatel mohl dovolit pořídit jako vlastní cluster.

V každém případě se ovšem uživatel zbaví nutnosti spravovat fyzické počítače a základní infrastrukturu (napájení, chlazení, sítě, fyzické zabezpečení serverovny, ...), plánované výpočetní zdroje budou umístěny na sálech ÚVT se vším potřebným vybavením a zajištěnou správou.

V současnosti celý systém virtuálních výpočetních zdrojů analyzujeme a připravujeme technologie.

5  Shrnutí

Zatímco koncepce používání virtuálních clusterů se teprve připravuje, "vedlejší produkty" tohoto úsilí se ukazují jako užitečné už dnes. Úložné kapacity jsou nutnou součástí takové infrastruktury, webové servery jsou z technologického hlediska předstupněm ke kompletnímu výpočetnímu prostředí. Úložné kapacity byly v roce 2008 k dispozici vytipovaným pracovištím univerzity, se kterými jsme jednali individuálně v rámci analýzy požadavků, a získaly během tohoto období přes 35 uživatelů, kteří je používají k nejrůznějším účelům. Příkladem může být ukládání videa na LF, sdílený repozitář fotografií historických listin na FF, nebo třeba archiv výsledků experimentů z PřF.

Pokud máte zájem zvýšit spolehlivost a dostupnost uložení svých dat, navštivte náš web http://storage.ics.muni.cz a kontaktujte nás na e-mailové adrese storage@icsteckamuniteckacz. Na stejné adrese také přivítáme jakékoli požadavky, přání, nápady a komentáře k celému projektu výpočetních a datových zdrojů a dalších virtualizovaných prostředí.

setting
1 Pro podrobnější popis univerzitní VPN viz https://vpn.muni.cz/, případně článek [2]
... zpět do textu

Literatura

[1] Luděk Matyska. Virtualizace výpočetního prostředí. Zpravodaj ÚVT, XVII(2):9-11, 2006. ISSN 1212-0901.
... zpět do textu
[2] Jakub Morávek a Radim Peša. VPN server Masarykovy univerzity. Zpravodaj ÚVT, XIV(2):10-12, 2003. ISSN 1212-0901.
... zpět do textu
Zpět na začátek
ÚVT MU, poslední změna 14.11.2011