Datová úložiště CESNET

23
Datová úložiště CESNET David Antoš 21. 10. 2013

description

Prezentace z Velkého semináře o komplexu služeb e-infrastruktury CESNET

Transcript of Datová úložiště CESNET

Page 1: Datová úložiště CESNET

Datová úložiště CESNET

David Antoš

21. 10. 2013

Page 2: Datová úložiště CESNET

Přehled

I proč má smysl budovat národní datová úložiště provědecká data

I budovaná infrastrukturaI jak úložiště použítI přístupové mechanismyI správa uživatelů na úložištíchI použití pro náročnější uživateleI speciální aplikace

Page 3: Datová úložiště CESNET

Smysl externího úložiště

I uživatelé raději drží data na vlastním zařízení. . .I to ale nedává rozumné garance dlouhodobého uchováváníI používají se nevhodná média, chybí systematická péčeI data je lépe uchovávat v živém systému

I konsolidace zdrojů – národní úložiště vědeckých datI umožňuje pořídit zařízení dostatečné velikostiI spravované specializovaným týmemI s možností sdílení dat mezi skupinami uživatelů

Page 4: Datová úložiště CESNET

Cíl: dlouhodobé uchování dat

I potřeba dlouhodobě uchovávat vědecká data vzrůstáI uchování primárních dat z experimentů a výpočtůI s ohledem na potenciál jejich dalšího využitíI k návratu a revizi publikovaných výsledků

I uchování zajišťujeme na úrovni zachování binárních dat(bitstream)

I správce úložiště nerozumí odborné povaze datI ani nemůže rozhodovat o smysluplnosti jejich archivace

I proto neděláme LTP (Long-Term Preservation)I bitstream je nicméně předpokladem pro uchování dat

I další kopie, geografické repliky, redundance v systému

Page 5: Datová úložiště CESNET

Možnosti využití datových úložišť

I zálohyI uživatelé mají primární data u sebeI na úložiště odkládají zálohu pro případ havárie

I archivaceI uživatelé na úložiště odkládají cenná primární dataI data nejsou často využívánaI uživatelé nemají prostředky pro jejich uchovávání

I sdílení datI distribuovaný tým potřebuje společně pracovat nad

většími objemy dat, případně je zveřejňovatI „něco jiného“

I distribuce obsahu, jiné speciální aplikace

Page 6: Datová úložiště CESNET

Možnosti využití datových úložišť

I a naopak: na co se vzdálené úložiště příliš nehodíI interaktivní práce zejména s velkým množstvím malých

souborůI ukládání dat s potřebou přístupu v reálném čase

I prioritou je spolehlivost uloženíI přímý provoz systémů s nutností 24/7 přístupu

I „toto není úložiště pod váš SAP“I na to je obecně vzdálené úložiště nevhodné

I vhodné použití pro podobné scénářeI primární 24/7 data u uživatele, na CESNET

zálohy/replikyI rozdělení životně důležitých dat vs. „nice to have“ dat

Page 7: Datová úložiště CESNET

Infrastruktura

Praha

Liberec

Pardubice

Brno

Olomouc

Ostrava

Opava

NIX

Internet

AMS-IX

SANETACONET

PIONIER

Jihlava

Děčín

PlzeňKarviná

Zlín

České Budějovice

Hradec Králové

GÉANT

Page 8: Datová úložiště CESNET

Infrastruktura

I trojice úložišť: Plzeň, Jihlava, BrnoI celková hrubá kapacita cca 16 PB + 5 PB(∗)I Plzeň v pilotním provozu od května 2012

I v areálu ZČUI cca 500 TB disků + 3300 TB pásekI SGI Data Migration Facility, CXFSI pásková knihovna Infinite StorageI doplňujeme SGI COPAN a pásky(∗)

I Jihlava a BrnoI dodáno v květnu 2013I probíhá uvádění do zkušebního provozu, testovací

uživateléI řešení IBM založené na GPFS

Page 9: Datová úložiště CESNET

Knihovna v Plzni

Page 10: Datová úložiště CESNET

Infrastruktura – další složky

I aneb úložiště „mimo ta naše“I disková pole zapojená v MetaCentruI hierarchické úložiště a disková pole CERIT-SCI pro vlastní potřebu projektů: CEITEC

I obvykle jsou nebo budou spojena systémem správyuživatelských účtů

I používají obdobné protokoly

Page 11: Datová úložiště CESNET

Úložiště jsou hierarchická

I vrstvy médií různé kapacity a rychlostiI rychlé disky/pomalejší disky/MAID/páskyI drahý provoz → levnější provoz

I a automatizovaný systém pro přesuny dat mezi nimiI déle nepoužívaná data do pomalejších vrstevI pro uživatele transparentní, resp. téměř transparentní

I přístup k dlouho nepoužitému souboru trvá déleI uživatelům to obvykle nevadí

Page 12: Datová úložiště CESNET

Zaplnění pásek v Plzni

Page 13: Datová úložiště CESNET

Jak na úložiště přenášet data –motivace

I většina software předpokládá použití lokálních diskůI vzdálené síťové disky se chovají jako lokální

I byť nemají vysoký výkon při práci s malými souboryI je nutno podporovat škálu přístupových protokolů

I pro různé případy použitíI držíme se nicméně spíše klasických protokolů

Page 14: Datová úložiště CESNET

Přenos dat na úložiště

I souborovéI NFSv4 (známé uživatelům MetaCentra)I rsync, scp, FTPSI obvykle autentizované systémem KerberosI existují GUI klienti i nástroje pro příkazovou řádku pro

hlavní platformyI Globus Online – vysokorychlostní přenosyI výhledově CIFS (známý „síťový disk“ z Windows)

I speciálníI gridové úložiště v systému dCacheI FileSenderI připravujeme ownCloud

I bloková zařízení (není preferováno)

Page 15: Datová úložiště CESNET

FileSender

I webová služba pro jednorázový přenos (velkých) souborůI velkých: aktuálně 500 GB

I přispíváme i k jeho vývojiI http://filesender.cesnet.czI alespoň jedna strana komunikace musí být oprávněný

uživatel infrastrukturyI autentizace federací eduID.cz

I oprávněný uživatel může nahrát soubor a poslat muoznámení

I lze poslat komukoli pozvánkuI testovací verze na http://filesender2.cesnet.cz

Page 16: Datová úložiště CESNET

Speciální protokoly/aplikace

I GlobusOnlineI „klikací FTP na steroidech“I kopírování velkého objemu datI řízené pomocí webového rozhraníI mezi „koncovými body“ – úložišti podporujícími

GlobusOnline nebo lokálním strojemI ownCloud

I cloudové úložiště, synchronizace souborůI dCache

I jeden ze systémů správy dat vyvinutých pro CERNI pro ukládání PB objemů

Page 17: Datová úložiště CESNET

Jak se stát uživatelem – snadno

I pokudI chcete využívat souborově orientované protokolyI dostačuje prefabrikovaná politika migrací datI ukládáte jen individuální dataI potřebujete ukládat nejvýše jednotky TB

I tak se jen zaregistrujte na http://du.cesnet.czI vyžaduje to ověření uživatele z akademické instituce

I členství se po roce prodlužujeI jako indikace, že uživatel „ ještě ví o svých datech“

I kódové označení: VO Storage

I jestli to nestačí, tak. . .

Page 18: Datová úložiště CESNET

Jak se stát uživatelem – snadno

I pokudI chcete využívat souborově orientované protokolyI dostačuje prefabrikovaná politika migrací datI ukládáte jen individuální dataI potřebujete ukládat nejvýše jednotky TB

I tak se jen zaregistrujte na http://du.cesnet.czI vyžaduje to ověření uživatele z akademické instituce

I členství se po roce prodlužujeI jako indikace, že uživatel „ ještě ví o svých datech“

I kódové označení: VO Storage

I jestli to nestačí, tak. . . ale až za chvilku

Page 19: Datová úložiště CESNET

Správa uživatelských účtů

I jednotná správa uživatelských účtů v infrastruktuřeI systém Perun

I proč to? zodpovídáme v projektu za to, komu službyposkytujeme (akademické komunitě), řídíme mnohorůzných služeb

I identita uživatele je podchycena centrálněI ověřena proti federaci eduID.czI alternativní mechanismus pro nečleny federace je

k dispoziciI na identitu uživatele jsou navázány jednotlivé mechanismy

přístupu k datůmI uživatel má jednotné webové rozhraní pro správu účtu

Page 20: Datová úložiště CESNET

Úložiště pro náročnější

I nestačí VO Storage? založíme vám virtuální organizaci!I VO je skupina uživatelů se společným zájmem, kteří

vystupují jako celekI VO má správce, který

I jedná s poskytovatelem zdrojůI rozhoduje o podmínkách členství jednotlivých uživatelů

I dohoda o poskytování zdrojů mezi VO a správcem zdrojeI popisuje nastavení technických parametrů

I velikost poskytovaného prostoruI použité přístupové protokolyI politika ukládání dat, počty kopií/replik

I VO může využívat různé typy zdrojů

Page 21: Datová úložiště CESNET

Založení VO prakticky

I napište nám na [email protected] domluvíme se, co potřebujete

I opravdu to potřebujeme pochopitI kolik dat máte, jak s nimi pracujete, . . .

I připravíme konfiguraci úložištěI založíme virtuální organizaciI pozveme vás do ní a povýšíme na administrátoraI dál si uživatele spravujete sami, vytváříte skupiny, . . .I ukládáte data přes FTP/rsync/NFSv4/...

I my se staráme, aby na se vytvářely jejich repliky, . . .

Page 22: Datová úložiště CESNET

Aktuální stav

I úložiště v Plzni v pilotním provozuI přichází na něj uživatelé

I individuální se mohou přihlásit do VO StorageI připojeno do MetaCentra

I přímo pro uživatele z MetaCentra

I FileSender v provozuI postupně obsluhujeme zájemce o náročnější využívání

I vždy vyžaduje komunikaciI pro velká data (desítky TB+): nezbytná technická

znalost uživatelůI úložiště v Brně a Jihlavě – testovací uživatelé

Page 23: Datová úložiště CESNET

Kontakty

I http://du.cesnet.czI uživatelská podpora: [email protected]