Post on 05-Jul-2015
description
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
HA in azienda
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Programma di oggi
● Un po' di teoria● Introduzione all'HA● The Availabilty index
● Un po' di caffè
● Un po' di pratica (con Michele Codutti)● Ovvero quando l'HA complica la vita
anziché semplificarla
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Le fonti
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Definizione di HA
Col termine "availability" (disponibilità) in ICT viene generalmente inteso come il periodo di tempo in cui un servizio è accessibile
"Highly Available" (altamente disponibile) è un sistema progettato per evitare la perdita di servizio, riducendo e possibilmente gestendo i guasti hardware ed i blocchi software, e minimizzando razionalmente le interruzioni pianificate.
BUZZWORD
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Perchè parliamo di HA?
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Come misuriamo l'HA?
% di disponibilità = (tempo totale - somma dei downtimes) / tempo totale
Ogni latenza di servizio, pianificata oppure no, viene detta "outage".
Con "downtime" si intende invece la durata di un outage in unità di tempo.
99% => 88 ore/anno - 99,5% => 44 ore/anno – 99,95 => 5 ore/anno
99,99999% "seven nines" => 3,15 s/anno
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Il costo dell'HA
● Costi di progettazione / implementazione / gestione
VS
● Costi di interruzione del servizio● Tangibili (arresto della produzione)● Intangibili (immagine aziendale, fiducia)
L'obiettivo non è avere un sistema sempre disponibile (costo infinito), ma:
Costi implementativi < Costi di interruzione
E' necessaria una attenta valutazione preventiva
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Le insidie dell'HA
● E' un sistema con retro-azione (instabile)
● Non è facile testarlo
● Va tenuto monitorato nel tempo
● Casistiche non valutate in fase di progettazione
● Variabili di ambiente (es. virtualizzazione)
=>>> Falsi positivi o falsi negativi (es. split brain)
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Le politiche di HA
● Definisci gli obiettivi● Convinci i tuoi capi (parlando la loro “lingua”), ragionando sul ritorno economico● Documentazione / corsi soprattutto su casi reali, aziendali – (non solo teoria)● Analisi degli aspetti legali ● Valutazione del rischio● Definizione linee guida● Implementazione (roadmap) ● Testing
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Le politiche di HA
VALUTAZIONE DEL RISCHIO
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
Prevedere l'imprevedibile
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI - The availability index
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Good System Administration Practices
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #20: Don’t Be Cheap
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #19: Assume Nothing
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #18: Remove Single Points of Failure
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #17: Enforce Security
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #16: Consolidate Your Servers
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #15: Watch Your Speed
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #14: Enforce Change Control
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #13: Document Everything
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #12: Employ Service Level Agreements
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #11: Plan Ahead
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #10: Test Everything
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #9: Separate Your Environments
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #8: Learn from History
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #7: Design for Growth
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #6: Choose Mature Software
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #5: Choose Mature, Reliable Hardware
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #4: Reuse Configurations
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #3: Exploit External Resources
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #2: One Problem, One Solution
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
TOP 20 - #1: K.I.S.S. (Keep It Simple . . .)
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Reliable Backups
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Reliable Backupscosa non è backup?
ATTENZIONE
IL MIRRORING NON è un backup
→ corruzione→ cancellazione non voluta
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Reliable Backupsstrategie
● Di cosa fare il backup?● Attenzione: è un costo (tempo, dispositivi, controlli)● Attenzione: tanti dati sono difficili da gestire● E il backup del backup?
● Dove collocare il backup?● Attenzione alla separazione ambienti● Attenzione ai tempi di ripristino● Cifratura del dato / privacy● Chi accede al backup?
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Reliable Backupsche soluzioni utilizzare?
● Al solito, abbiamo diverse opzioni:● Software commerciali● Software open-source● Soluzioni “fatte in casa” => ma perchè ????
● Attenzione alle piattaforme da supportare (client/storage)● Attenzione che un prodotto commerciale non è scevro da
problematiche di funzionamento● Valutare esigenze di hot-backup
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Reliable Backupsperformance e bottleneck
TEMPI DI SALVATAGGIO/SFORAMENTIAbbiamo solo 24 ore in un giorno
FALLIMENTO DI UN BACKUP..Cosa comporta?
VELOCITA' STORAGE / CANALE
TRAFFICO / CARICO
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Reliable Backupstest & monitoring
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Disk and Volume Management
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Disk and Volume Management
● RAID● Strumenti (SAN – NAS – Disk Array – Virtual Storage)
● I/O performance (reali)● Affidabilità/disponibilità● Scalabilità● Costo/capacità● Strumenti di gestione● Funzionalità evolute (provisioning – integration – storage virtualization - replica)● Licenze
● Block or Filesystem● Protocols
● Fibre Channel, iSCSI, SAS, FCoE● NFS, CIFS
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Disk and Volume ManagementSAN o NAS?
Cos'è meglio ? => DIPENDE
● SAN:
– Grandi moli di dati– Alte richieste di banda– Applicazioni parallele/distribuite– Scalabilità
● NAS:
– Gestione centralizzata storage– Pochi dati– Piccola crescita dell'ambiente operativo– Semplice ed economica
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Disk and Volume ManagementBackup e Replica
● Backup (es. “snapshot” LUN - flash copy)
=> Attenzione alla mole di dati e ai costi (tempo, spazio disco)
=> tecnologie “nuove” (ZFS)
● Replicazione ● Sincrona● Asincrona
Attenzione :– disponibilità di banda (garantita!)
del canale – latenza del canale
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Disk and Volume ManagementSnapshot
● Snapshot (VM)
NON E' UN BACKUP
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Networking
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Networkingtipologie di failure
Problematiche di rete sono spesso difficili da diagnosticare (multilayer).. ● Interfacce LAN● Cablaggi● Dispositivi di interconnessione (switch, bridge)● Dispositivi di routing/firewalling● Politiche di routing/firewalling● Servizi chiave ● Latenza
=> dobbiamo agire su ogni layer per valutare la disponibilità
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Networkingspunti di discussione
Alcuni spunti:● Porre attenzione alla complessità delle soluzioni ridondate e relativo difficile
debug● Attenzione alle funzionalità di failover automatico● Attenzione alle compatibilità dei dispositivi● Separazione funzioni vs concentrazione● Protezione della rete (802.1x, network policy, ...)● Attenzione a soluzioni software (driver!)● Scegliere protocolli efficienti (attenzione a compatibilità fra costruttori, anche
se dichiarate)● Usare protocollo di Spanning Tree (rapid?)● Mappe (geografiche)/visione d'insieme
=> risoluzione rapida dei guasti● NO ALLE SOLUZIONI FATTE IN CASA/ACCROCCHI
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Local Environment
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Local Environmentproblemi trascurati?
L'ambiente può inficiare totalmente sistemi progettati per l'HA, spesso in maniera subdola/nascosta● Energia elettrica / UPS
(stabilità, ridondanza, share, interruzioni breve e lungo termine, carburante per generatori)
● Connettività (ridondanza/mezzi diversi/fornitori diversi)● Raffreddamento (temperature/flussi/ridondanza)● Cablaggi (labels?) / Ciabatte elettriche● Sicurezza di accesso fisico ai locali (pro e contro)● Protezione da fenomeni esterni (acqua, fuoco, esplosioni)
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Local Environmentproblemi trascurati?
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Local Environmentproblemi trascurati?
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Local Environment...e le persone?...
● sono parte dell'ambiente(fornitori, clienti, dipendenti, collaboratori)
● Importanza del lavoro in team e del rispetto verso gli altri
● Importanza dell'educazione/formazione dei team
● Condivisione di problemi e obiettivi
● Creazione di sinergie coi fornitori e cura dei rapporti umani
● Creazione di sinergie con i clienti
=> COSTI ALTI, ma...
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Local Environmentprocedure e piani...
● Sono sempre necessari piani e procedure di intervento
● Sotto stress si commettono errori:● Bisogna prevedere le situazioni più probabili e gestirle preventivamente● Se possibile, simulare problemi● Lavorare/essere sempre in team● Gestire correttamente le escalation● Incident Response Team● Gestire i carichi di lavoro
● IMPARARE DAGLI ERRORI
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Client Management
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Client Managementproblematica...
● La gestione degli end-point in azienda raramente viene considerata in base a logiche di HA (a meno di casi specifici – es. CNC)
● Il mancato funzionamento dei sistemi client comunque può determinare impossibilità di fruire del servizio
● Una non corretta gestione degli end-point può determinare:● Perdita dei dati (errata gestione)● Rischi di sicurezza (accessi indesiderati alla rete e ai dati
aziendali / virus / violazioni di credenziali / DoS)
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Client Management...strategie
● Utilizzo di strumenti di gestione / protezione dei client (es. agenti antivirus - data leak protection)
● Mount di rete / mantenimento documenti su server (es. share NFS) / VPN / Webclient
● VDI (virtual desktop infrastructure) / Thin client ● Secure Portable Devices
=> INDIPENDENTE
DA END-POINT
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Client Management...strategie
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Services and Applications
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Services and Applications
● Le applicazioni devono essere progettate per tollerare malfunzionamenti della infrastruttura ospitante (es. gestione assenza connettività)
● Utilizzare checkpoint e/o replicazione● Formazione e responsabilità degli sviluppatori● Test “estesi” per le
applicazioni (possibilmente con coinvolgimento di altre figure tecniche non di sviluppo)
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failovers
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failoverscaratteristiche
Failover: migrazione dei servizi da un dispositivo/gruppo di dispositivi ad un altro.● Trasparente● Veloce● Automatico
(minimo manuale)● Garanzia di accesso ai dati
=> cluster con almeno 2 nodi
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failoverstipologie di cluster
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failoverstipologie di cluster
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failoverstipologie di cluster
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failoversesempio di cluster
CLUSTER CON 2 NODI ??? ma....
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failoverssplit brain
Problema dello split brain ==> quorum disk
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failoversheartbeat failure
● Lo split brain avviene solitamente a seguito di failure dell'heartbeat● Interruzione del collegamento HB => cavo dedicato,
contrassegnato, protetto● SPOF sulla rete di HB => multipath● guasto di scheda di rete => multischeda (non 1
scheda con due interfacce)● Problemi/bachi software (vecchie versioni di HB)
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Failoversfailover inatteso
● Ping-pong: rimbalzo del serviziofra i nodi, con rischio di corruzione dei dati
=> intervento umano di ripristino● Run-away: spostamento
indesideratodel servizio causa failback
FAILBACK? Da attivare o meno?
FENCING? => cluster down?
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Replication
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Replicationdefinizione
● Copia dati da un sistema ad altro sistema completamente indipendente dal primo
● NON è disk mirroring (nel mirroring i dischi sono visti come unica entità)
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Replicationcategorie di replicazione
● In base alla latenza● Sincrona● Asincrona● Semi-sincrona● Periodica (batch style)
● In base alla entità che la gestisce● Hardware● Software● Filesystem● Application
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Replicationproblemi di replicazione
● Perdita di coerenza● Replicazione bidirezionale● Problemi del canale di sincronizzazione
● Latenze● Banda
● Ritardi negli ACK● Corruzione della replica (a seguito corruzione
master)● Strumenti/Licenze (!)
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Disaster Recovery
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: Disaster Recoverycriteri
● Documentazione e priorità (solo cose essenziali in sito DR)
● Selezione del sito di DR (attenzione!) ● Modalità di interconnessione con sede master● Modalità di switching su DR (es. BGP)● Team dedicato e formato per recovery● Test ed esercizi per il piano di DR● Controllo continuo e costante del piano di DR
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
E il cloud?
Livelli di disponibilità altissimi, ma● La connettività● La dipendenza dal
fornitore– Migrazioni?– Problemi?
● E la bolletta?– Costi misurabili?– Ricordarsi di pagarla...
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
E il cloud?
Cloud● Private● Public● Hybrid
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
AI: A pratical case
Michele Della Marina - Dario Tion info@darnet.it
HA in azienda
HA in azienda
CREDITSTutti i loghi e le immagini qui utilizzate sono
dei legittimi proprietari; a tal proposito si ringraziano:
Evan Marcus – Hal Stern
Wiley ed.
Google :)
The Simpson family
All the O.S.developers communities
All the O.S. fans communities
All the Penguins & All the Beastie