Zagrożenia dla danych Problemy i scenariusze · Przechowywanie w PLATON-U4: => Bezpłatne dla...
Transcript of Zagrożenia dla danych Problemy i scenariusze · Przechowywanie w PLATON-U4: => Bezpłatne dla...
Zagrożenia dla danych
Problemy i scenariusze
Warsztaty
„Usługa powszechnej archiwizacji”
Maciej Brzeźniak, PCSS
Plan prezentacji
Zagrożenia dla danych:
Duże ilości danych produkowane i przechowywane: w instytucjach i projektach naukowych
przez indywidualnych użytkowników
Praktyczne zagrożenia dla danych: uszkodzenie lub utrata danych
„starzenie się” danych i nośników oraz rozwój/”starzenie się” technologii
Przyczyny problemów z zabezpieczeniem danych i wyzwania z tym związane:
Złożonośd procesu zabezpieczenia danych
Brak know-how i doświadczenia w dziedzinie
Ograniczone zasoby, koszty
Możliwe rozwiązania
Outsourcing do PLATON-U4
Przykładowi użytkownicy i scenariusze:
Biblioteki cyfrowe i archiwa
Operatorzy sieci miejskich
Naukowcy, pracownicy uczelni, studenci
Dane jako wartość
Dane są bardzo wartościowe: Bezcenne zbiory cyfrowe
Wyniki kosztownych badao
Prywatne dokumenty
=> Konieczne jest dobre zabezpieczanie danych: Dobre = odporne na zagrożenia, którym podlegają dane
=
Danych jest coraz więcej
Wzrost objętości danych na świecie przekracza dotychczasowe prognozy:
roczny PRZYROST danych na świecie:
2006: 161 exabajtów *IDC/„NYT”+
2007: 181 exabajtów *IDC/„DailyTech”+
2010: 1,250 exabajtów w 2010 [IDC, prognoza 2009)
2010: 1,800 exabajtów *) *IDC, 2010, „The Economist”+
roczny: przyrost danych / 1 użytkownika:
2006: 45 GB / osobę (IDC)
2010: 260 GB / osobę *IDC, 2009, „The Economist”+
=> Ciągły przyrost objętości danych sprawia, że lokalne systemy przechowywania należące do instytucji i użytkowników mogą okazad się za małe... lub za drogie...
*) 1 exabajt = 1000 petabajtów = 1000x1000 terabajtów
Naukowe dane cyfrowe: Biblioteki cyfrowe: 80-100 TB rocznie
Wirtualne laboratoria: 5 TB / dobę (!)
Infrastruktura EDU-IT: Akademickie centra obliczeniowe: 300 TB dziś
Operatorzy sieci miejskich MAN w ramach konsorcjum PIONIER: 14 TB/miesiąc
Instytucje naukowe: Instytuty naukowe: setki jednostek
Uczelnie: prawie 500 uczelni
Szpitale kliniczne: ponad 50 w całym kraju
Ludzie: Naukowcy, studenci:
tysiące osób, PetaBajty danych
Producenci danych w Polsce (1)
Naukowe dane cyfrowe: Biblioteki cyfrowe:
Zbiory cyfrowe dużej objętości
Wiele instytucji skanuje oryginały dzieł w wysokiej rozdzielczości:
100-300 MB / plik
300-400 GB / dobę
80-100 TB / rok
Wirtualne laboratoria:
Radioteleskopy: np.10 teleskopów
x 512 Mbit/s – 5,3TB / dobę (!)
np. projekty:
Express,
JIVE.NL
Producenci danych w Polsce (2)
źródło: swaen.com
źródło: sxc.hu
źródło: sxc.hu
źródło: http://www.astron.nl/
Infrastruktura EDU-IT: Akademickie centra obliczeniowe:
Np. PCSS: Kopie zapasowe systemów i projektów: 50 TB
Dane użytkowników: 15 TB
Ekstrapolując: 5 centrów KDM/HPC ~300 TB
Prognozowany duży wzrost związany z inwestycjami w systemy obliczeniowe
Operatorzy sieci miejskich (MAN) w ramach konsorcjum PIONIER
Wolumen ruchu PIONIER-MANy (IV.2010): 696 TB /dobę
20 883 TB / miesiąc
Ilośd danych do archiwizacji (do 5% ruchu): 1 044 TB/miesiąc – całośd informacji
~ 14 TB/miesiąc - przy zapisie wyłącznie nagłówków 5% ruchu (zakładając header /packet 20/1500)
Producenci danych w Polsce (3)
Instytucje naukowe: Instytuty badawcze: 1)
Ponad 600 jednostek -- produkcja i potrzeba zabezpieczenia ogromnych ilości danych (trudno oszacowad...), w tym:
PAN: 81 placówek, B+R: 222 jednostek
Instytuty przy zakładach przemysłowych: 402
Uczelnie:
457 uczelni: 131 publicznych i 326 prywatnych 2)
Systemy informatyczne uczelni....
PetaBajty danych
Szpitale kliniczne:
54 szpitale w 24 miastach
Duże zapotrzebowanie na przestrzeo archiwizacji danych
Producenci danych w Polsce (4)
1) za GUS, dane z 2006 r.
2) za http://pl.wikipedia.org/wiki/Szkoły_Wyższe_w_Polsce
Ludzie: Naukowcy: 1)
PAN: 6 800 osób
B+R: 21 500 osób
Szkoły wyższe: 80 000 osób
Studenci:
Ogromna liczba studentów
Producenci danych w Polsce (5)
źródło: http://www.studenckamarka.pl/serwis.php?s=73&pok=1909
Liczba studentów w Polsce (w tys.)
1) za GUS, dane z 2006 r.
Ludzie – zapotrzebowanie na przestrzeo:
Producenci danych w Polsce (5)
Przyrost danych - podsumowanie
Duża ilośd danych Przechowywanie danych
może przekraczad możliwości instytucji lub osoby indywidualnej!
Problemy/zagrożenia: Bezpieczeostwo danych
Integralnośd i poufnośd
Trwałośd danych
Złożonośd procesu
Zasoby i koszty
Zabezpieczenie danych – zagrożenia i wyzwania (1)
Trzeba zapewnid:
Bezpieczeostwo fizyczne danych
Kontrolę integralności logicznej danych oraz poufnośd danych
Długoterminowe przechowywanie i udostępnianie wykonanych kopii
Narzędzia wspierające wykonywanie kopii danych i dostęp do nich (odtwarzanie)
Zabezpieczenie danych – zagrożenia (2)
Bezpieczeostwo fizyczne danych:
=> Warto przechowywad dane w co najmniej 1 dodatkowej lokalizacji...
Integralnośd logiczna i poufnośd danych Problem 1 – integralnośd logiczna
Zabezpieczenie danych – zagrożenia (3)
Integralnośd logiczna i poufnośd danych Problem 2 – poufnośd danych
Zabezpieczenie danych – zagrożenia (4)
Długoterminowe przechowywanie danych i udostępnianie przechowywanych kopii: Ograniczona trwałośd nośników
Zabezpieczenie danych – zagrożenia (5)
Dysk twardy – 5-10 lat
(w zależności od obciążenia)
Pamięd flash – 10 lat
CD/DVD – praktycznie 5-10 lat
Taśma LTO – 15-30 lat
(5000 montowao)
Długoterminowe przechowywanie danych i udostępnianie przechowywanych kopii:
„Wytrzymałośd” dysków twardych
MTBF (Mean Time Between Failures): Jest miarą statystyczną:
Nic nie mówi o niezawodności pojedynczego dysku!!!
Jest zawyżany przez producentów (3-5x...) *)
Typowe wartości: 300 000 h – dyski do stacji roboczych:
0,88 dysków / 100 dysków może ulec awarii w ciągu roku
1 000 000 h – dyski do serwerów i macierzy
2,92 dysków / 100 dysków może ulec awarii w ciągu roku
SMART (Self-Monitoring, Analysis, and Reporting Technology):
Monitoruje wiele parametrów dysków twardych, min. liczniki błędów i parametry fizyczne pracy dysków
Praktyczna skutecznośd jest niestety ograniczona
*) Failure Trends in a Large Disk Drive Population, 5th USENIX Conference on File and Storage, Technologies (FAST’07), February 2007, San Jose, CA, USA
Zabezpieczenie danych – zagrożenia (6)
Długoterminowe przechowywanie danych i udostępnianie przechowywanych kopii: Migracja danych między technologiami
przechowywania (dyski)
Zabezpieczenie danych – zagrożenia (7)
Dysk twardy IBM 350 (1956)
Dysk twardy 3,5”
(Rodime, 1986)
SSD (1995, M-Systems i później)
Długoterminowe przechowywanie danych i udostępnianie przechowywanych kopii: Migracja danych między technologiami
przechowywania (taśmy)
Zabezpieczenie danych – zagrożenia (8)
Napęd taśmowy IBM 727 (1952...)
TK50 (DEC, 1984, 0.1GB) -> DLT-S4 (Quantum, 2006, 800GB)
LTO1-LTO5 (Seagate-HP-IBM, 2000-2010, 0.1-1.5TB)
Dane podlegają wielu zagrożeniom
=> Powinniśmy je zabezpieczyd
.... Ale są z tym problemy...
Zagrożenia a problemy z zabezpieczeniem
Złożonośd procesu wykonywania kopii danych i dostępu do nich: Problem 1: złożonośd procesu
Przyczyny problemów z zabezpieczeniem danych (1)
Złożonośd procesu wykonywania kopii danych i dostępu do nich: Problem 2: potrzeba automatyzacji
Przyczyny problemów z zabezpieczeniem danych (2)
Kopia
Dzieo 1
Kopia
Dzieo 2
Kopia
Dzieo 3
Kopia
Dzieo 4
Brak kopii
Dzieo 5 - wakacje
Wakacje już na zawsze
Brak doświadczenia i know-how w dziedzinie: Wiele instytucji nie ma dedykowanych działów IT
lub są one „niedoszacowane” (za mało pracowników)
Działy IT w wielu instytucjach:
zaniedbują proces wykonywania kopii danych, który:
jest uciążliwy – jeśli nie zautomatyzowany
nie jest regularny
obejmuje wycinek danych organizacji
nie mają doświadczenia z zarządzaniem dużymi ilościami danych i cyklem życia danych
Przyczyny problemów z zabezpieczeniem danych (3)
Brak zasobów:
Ludzkich – do obsługi procesu
Sprzętu i oprogramowania – do automatyzacji procesu
Przyczyny problemów z zabezpieczeniem danych (4)
Dysk 1TB, Koszt: 300 zł brak redundancji (np. RAID)
Taśma LTO5, 1.5 TB Koszt: 800 zł Wymaga napędu
Macierz FC-SATA: 16 x dysk 1TB, koszt: 280 000 zł (tzw. List Price) redundancja (RAID)
Napęd IBM TS2350: 1 taśma, 1 napęd, koszt:
Macierz SAS-SATA: 12-48x dysk 1TB, Koszt: 30 000 – 90 000 zł redundancja (RAID)
Oprogramowanie: Koszt: 4 000 - ..... zł Wymaga serwera
Sied SAN koszt: 100 000 zł
Autoloader Quantum Superloader 3; 16 taśm, 1 napęd koszt:
Wysokie koszty:
„tanie” dyski
Przyczyny problemów z zabezpieczeniem danych (5)
dysk 1TB, koszt: 300 zł brak redundancji (np. RAID)
Załóżmy: 12 TB – 12 dysków
Dołóżmy redundancję – RAID
koszt: 3 600 zł
Nadal brak redundancji!
+ kontroler RAID karta PCI do serwera Koszt 1 200 zł
+ serwer 12 wnęk na dyski Koszt ok. 20 000 zł
+ + = RAZEM: 12 TB fizycznie 10 TB logicznie (RAID) REDUNDANCJA! Koszt ok. 34 000 zł => 3 400 zł / TB
Dysk serwerowy: koszt: 1 000 zł
Dysk dekstop: koszt: 300 zł
Macierz SAS-SATA: 12 dysków 1TB 12 TB fizycznie 10 TB logicznie REDUNDANCJA (RAID +2 kontrolery) Koszt ok. 30 000 zł / 12 TB => 2 500 zł / TB
Wysokie koszty:
Skalowalnośd kosztów
Przyczyny problemów z zabezpieczeniem danych (6)
System dyskowy 12-48 TB
+ + = 1 server: 12 TB 12 TB fiz., 10 TB logicznie (RAID)
Koszt ok. 34 000 zł => 3 400 zł / TB
Macierz SAS-SATA: 12 dysków 1TB 12 TB fizycznie, 10 TB logicznie
REDUNDANCJA (RAID +2 kontrolery) Koszt ok. 30 000 zł/12 TB => 2 500 zł/TB
+ półka SATA: 12 dysków 1TB 12 TB fizycznie, 10 TB logicznie
Koszt ok. 51 000 zł/24 TB => 2 125 zł/TB
+ półka SATA: 12 dysków 1TB 12 TB fizycznie, 10 TB logicznie Koszt ok. 72 000 zł/36 TB => 2 000 zł/TB
+ półka SATA: 12 dysków 1TB 12 TB fizycznie, 10 TB logicznie Koszt ok. 93 000 zł/48 TB => 1 950 zł/TB
+ + = + server: 12 TB 12 TB fiz., 10 TB logicznie (RAID)
Koszt ok. 34 000 zł => 3 400 zł / TB
+ + = + server: 12 TB 12 TB fiz., 10 TB logicznie (RAID)
Koszt ok. 34 000 zł => 3 400 zł / TB
+ + = + server: 12 TB 12 TB fiz., 10 TB logicznie (RAID)
Koszt ok. 34 000 zł => 3 400 zł / TB
+ SERWISY... (typowo po 3 latach ok. 10% ceny listowej / rok)
Wysokie koszty:
taśmy
Przyczyny problemów z zabezpieczeniem danych (7)
Załóżmy: 16 taśm – 24 TB (LTO5)
Dołóżmy autoloader
Koszt 16 taśm: 12 800 zł
- brak redundancji! - wymagana zmieniarka
Np. zmieniarka Quantum Superloader 3 24 TB fizycznie 12 TB logicznie z REDUNDANCJĄ Koszt ok. 22 000 zł
Taśma LTO5, 1.5 TB koszt: 800 zł wymaga napędu
Oprogramowanie: Koszt: 4 000 zł Wymaga serwera
Dołóżmy oprogramowanie
1 serwer – 2 x 4-core CPU 6 dysków wewn. (baza oprogramowania) Koszt ok. 20 000 zł
oraz serwer...
+ + = RAZEM: 24 TB logicznie, 12 TB fizycznie (RAID)
Koszt ok. 58 800 zł • 2 450 zł / TB (bez redundancji) • 4 900 zł / TB (zakładając redundancję 1:1)
+
+ SERWISY... (typowo po 3 latach ok. 10% ceny listowej / rok)
Wysokie koszty:
Taśmy - skalowalnośd
Przyczyny problemów z zabezpieczeniem danych (8)
Załóżmy: 16 taśm – 24 TB (LTO5)
= RAZEM: 24 TB logicznie, 12 TB fizycznie (RAID)
Koszt ok. 58 800 zł • 2 450 zł / TB (bez redundancji) • 4 900 zł / TB (zakładając redundancję 1:1)
Załóżmy: 32 taśmy – 48 TB (LTO5)
16 taśm: 12 800 zł
+
Autoloader: 22 000 zł
+
Oprogramowanie: 4 000 zł
+
Serwer: 20 000 zł
= RAZEM: 24 TB logicznie, 12 TB fizycznie (RAID)
Koszt ok. 93 600 zł • 1 950 zł / TB (bez redundancji) • 3900 zł / TB (zakładając redundancję 1:1)
+
Oprogramowanie: 4 000 zł
+
Serwer: 4 000 zł
32 taśm: 25 600 zł
+
Autoloader: 22 000 zł
+
Koszty systemu - zakup i utrzymanie
Przyczyny problemów z zabezpieczeniem danych (9)
Koszty 1 TB danych – zakup i utrzymanie
Przyczyny problemów z zabezpieczeniem danych (10)
Wiele problemów z zabezpieczeniem danych
=> Potrzebne jest solidne i wiarygodne rozwiązanie tych problemow
Problemy z zabezpieczeniem danych (11)
Outsourcing problemu może okazad się:
Skuteczniejszy
Taoszy
Outsourcing – opcje:
Usługi kopii zapasowych w sieci:
np. iBard24, AutoBackup.pl
=> Kosztowne przy dużej ilości danych
Przechowywanie chmurowe:
Amazon S3 (Simple Storage Service)
=> Kosztowne przy dużej ilości danych
Przechowywanie w PLATON-U4:
=> Bezpłatne dla użytkowników akademickich i naukowych przez pierwsze 3 lata...
Outsourcing problemu – jedyne realne rozwiązanie?
Koszty składowania w innych systemach...
iBard24 1): osoby prywatne firmy 1 GB - 0,00 zł / rok 0,00 zł / rok
10 GB - 98,99 zł / rok 249,99 zł / rok
100 GB - 798,99 zł / rok 1399,99 zł / rok
> 100 GB - brak cen
AutoBackup.pl 2): 1 GB - 29,80 zł / rok (taryfa <3 GB)
10 GB - 154,80 zł / rok (taryfa 3-30 GB)
100 GB - 468,00 zł / rok (?) – „bez limitu pojemności” (taryfa >30 GB)
Amazon S3 3): 20% out 50% out 100% out 1 GB - 6 zł / rok 7 zł / rok 7 zł / rok
10 GB - 68 zł / rok 69 zł / rok 71 zł / rok
100 GB - 684 zł / rok 689 zł / rok 715 zł / rok
1 TB - 6 840 zł / rok 6 892 zł / rok 7 154 zł / rok
kruczki: PUT, COPY, POST, or LIST $0.01 per 1,000 Requests
GET and All Other Requests*** $0.01 per 10,000 Requests
XX% out - założenie: użytkownik pobiera do XX% danych składowanych uprzednio w systemie
1) https://www.ibard24.pl/pl/cennik 2) źródło: http://www.auto-backup.pl/cennik 3) na podstawie: http://aws.amazon.com/s3/, założenie: (1) 1$ = 3,49 PLN
Outsourcing problemu – alternatywy dla PLATON-U4
Koszty składowania w PLATON-U4:
Przez 3 lata za darmo
Po 3 latach (od 2012) przez 5 lat:
Utrzymanie usługi w ramach kosztów własnych
Inne czynniki:
Nie jesteśmy instytucją anonimową...
Partnerzy projektu są znani w środowisku akademickim/ naukowym
Umowa podpisywana pomiędzy konkretnym ośrodkiem KDM/MAN i klientem
Działamy w Polsce:
w polskiej sieci naukowej i w sieciach miejskich
w ramach polskiego prawa
Outsourcing problemu – PLATON-U4
Usługa PLATON-U4
Dane
PLATON-U4:
Standardowe/łatwe interfejsy
Automatyzacja
Prawdziwa redundancja danych
Wsparcie dla procesu kopiowania danych / archiwizacji
PLATON-U4 – nie tylko outsourcing problemu
Usługa PLATON-U4
Dane
Zabezpieczenie danych – wyzwania (1)
Dostęp sieciowy: sFTP, SCP, WebDAV...
Aplikacja backup/archive
Aplikacja Web’owa
Ułatwienie procesu wykonywania kopii danych i dostępu do nich: intuicyjny interfejs
Zabezpieczenie danych – wyzwania (2)
Ułatwienie procesu wykonywania kopii danych i dostęp do nich (odtwarzania): automatyzacja
Zapewnienie faktycznej redundancji danych:
Ograniczenia zabezpieczeo grupami RAID:
RAID nie chroni przed kataklizmem
Zapewnia redundancję danych w ramach pojedynczego urządzenia / pomieszczenia /centrum danych
=> Konieczna jest replikacja!!!!
RAID nie chroni przed błędem użytkownika
Wszystkie błędne operacje są wykonywane na RAID
=> Konieczne jest regularne i automatyczne wykonywanie kopii zapasowych
Zabezpieczenie danych – wyzwania (3)
Użytkownik Usługa PLATON-U4
Dane
użytkownika
Centrum Danych 1
Centrum Danych 3
Centrum Danych 2
Replika 1 Replika 2 Replika 3
R E P L I K A C J A
Zapewnienie faktycznej redundancji danych:
Usługa PLATON-U4
Centrum Danych 1
Centrum Danych 3
Centrum Danych 2
Replika 1 Replika 2 Replika 3
O D T W A R Z A N I E
Dane dostępne!
Użytkownik Dane
użytkownika
Zapewnienie faktycznej redundancji danych:
REGULARNY BACKUP
Wsparcie dla procesu wykonywania kopii – m.in. Zabezpieczenie przed propagacją błędów użytkowników
Dzieo 3 Dzieo 1 Dzieo 4
Odtworzenie Kopia
Dzieo 2
Kopia
Dzieo 5
Kopia
Zabezpieczenie danych – wyzwania (3)
Optymalizacja kosztów: Regularny backup kosztuje:
Trzeba robid regularne kopie...
Koszty składowania są wysokie...
Odpowiednie polityki = optymalizacja:
Kopie przyrostowe
Sprawna implementacja polityk = automatyzacja
Zabezpieczenie danych – wyzwania (4)
Zagrożenia i wyzwania: Dane są bardzo
wartościowe lub nawet bezcenne
Dane są „wrażliwe”
Danych jest coraz więcej:
Instytucje
Użytkownicy indywidualni
Efektywne zabezpieczenie dużych ilości danych:
jest trudne
... i kosztowne
Podsumowanie (1)
Sensownym wyjściem wydaje się outsourcing: „Ktoś inny” martwi się:
O bezpieczeostwo fizyczne
Poufnośd
Integralnośd
Trwałośd nośników
Migrację między technologiami
Wartości dodane:
Standardowe interfejsy
Proponujemy usługi PLATON-U4:
Rozproszony system z replikacją geograficzną
Znany dostawca usługi
Konkurencyjne koszty
Podsumowanie (2)
Usługa PLATON-U4
Dane