Haute Disponibilité : DAG

Click here to load reader

download Haute Disponibilité : DAG

of 35

  • date post

    23-Feb-2016
  • Category

    Documents

  • view

    55
  • download

    0

Embed Size (px)

description

Haute Disponibilité : DAG. 08/02/2011 Matthieu PARFUS Consultant Senior II Microsoft Consulting Services. Microsoft Services: Un accompagnement global de nos clients. Architecture & Planning Planification. Conseil et Projets Déploiement et adoption. Support Optimisation et Opération. - PowerPoint PPT Presentation

Transcript of Haute Disponibilité : DAG

Diapositive 1

Haute Disponibilit : DAG08/02/2011Matthieu PARFUSConsultant Senior IIMicrosoft Consulting Services#Microsoft Services:Un accompagnement global de nos clientsArchitecture & PlanningPlanificationConseil et ProjetsDploiement et adoptionSupportOptimisation et OprationEvaluationPlanificationDveloppementDploiementStabilisationOprationsSupportSupport PremierEnterprise StrategyConsulting ServicesDivision Services France 2010

180 Consultants125 Technical Account Managers 190 Ingnieurs Support17 Responsables de Mission41 Partenaires rfrencs

www.microsoft.fr/services Division Services Monde 2010

82 pays couverts18 000 employs35 000 partenaires44 langues parles par nos ingnieurs

###Criticit du projetMaturit de la technologie

PartenairesNotre engagement auprs de nos partenaires est: De leur assurer un transfert dexpertise,De leur apporter notre support sur les dernires technologies, De leur donner accs aux meilleures pratiques de mise en uvre et de support.Nos clients et partenaires sont particulirement satisfaits par

Le niveau dengagement des consultants : 94%La gestion de lquipe de projet : 92%Les comptences techniques des consultants : 91%La relation avec les quipes du client : 90%Notre positionnement est dintervenir sur les projets critiques et les technologies rcentes###AgendaPrincipesPr-requis et limitesDimensionnementParamtres MBX membre dun DAGFonctionnement rplicationQuorum et FileShareWitnessActive ManagerSlection de la meilleure copieDatacenter Activation Coordination (DAC)Rsilience de siteNouveauts du SP1#Principes du DAGDAG : groupe de serveurs ayant le rle Mailbox (MBX)Les bases de donnes peuvent disposer dune ou plusieurs copies entre les MBX du DAG (une active, les autres passives)Transmission de log de transaction au travers du rseau (logshipping), et commit sur les DB PassivesHaute Dispo DAG associe au CAS Array (Ferme de CAS)Primary Active Manager (PAM) :Mcanisme dactivation automatique de la meilleure copie

Complexit apporte par:DAG tendu sur plusieurs sites gographique => Split-Brain / mcanisme de redmarrageCommit retard (lagged copy)

#Pr-requis et limites (1)

Intgration AD : MBX prsents sur un ou plusieurs sites AD / VLANPlusieurs DAG peuvent tre prsents dans un site ADTous les nuds doivent appartenir au mme domaine1 CAS Array par site AD (8 CAS max si NLB)Nom du DAG < 16 caractresMBX ne doit pas tre avoir de rle DC/GC

#Pr-requis et limites (2)

Service Failover Cluster :Valide la prsence ou labsence des nuds (heartbeat)16 nuds maximum par DAGInformation dtt stocke dans ruche cluster (utilis par le PAM)Implique Windows Server 2008 Entreprise ou 2008 R2 Entreprise)Activation du DAG ne ncessite pas de r-installer Exchange (installation incrmentale)Utilisation rduite du failover clusterPlus de modle de ressources / groupe pour Exchange / partage de stockagePlus de dll exres.dllUniquement: Nom, IP, Quorum (si nb de nuds pair)Les nuds et les rseaux doivent tre grs au travers de lEMC et non des outils cluster

#Pr-requis et limites (3)

DBMaximum (Active, Passive ou Dossiers Publics confondus) :Exchange Server Standard = 5 DB maximum Exchange Server Entreprise = 100 DB maximum

Nom unique de la DB dans lorganisation (globalisation)

Taille DB: Supporte = 16 ToMaximum recommand sans Haute Dispo = 100 GoMaximum recommand avec plusieurs copies dans un DAG = 2 To

Log CheckpointDepth Target :Stand Alone = 20 MoDB active qui a plusieurs copies = 100 MoDB Passive = 5 Mo#Pr-requis et limites (4)

Mutualisation des rlesCAS et HT peuvent tre installs sur un MBX membre dun DAGFailover Cluster : NLB nest pas supportCAS membre dun DAG => Hardware Load BalancerHT: le rle nest pas utilis pour les communications mise par nud (sauf si dernier HT disponible dans le site)

Datacenter Activation Coordination Mode(DAC) : 3 MBX minimum et 2 sites AD distincts (RTM)

Virtualisation : Solutions de Haute Dispo Virtu (LiveMigration et VMWare HA) non supportes avec les membres dun DAG et host qui hberge le FSW

NIC :1 supporte2 minimum recommandes, NIC ddie :RplicationMAPI, dialogue HT/CAS/GC MBXMultiVLAN : /!\ associer les Subnets ; Rseau MAPI et Rplication ne doivent pas se voir ; netshau lieu de route add#DimensionnementExchange 2010 Mailbox Server Role Requirements Calculator + Exchange Processor Query ToolNombre de nudsNombre de cores CAS / HT / GCDimensionnement des LUNDAG multi-sitesTrafic rseauCompression activable sur le mme VLAN voir entre VLAN diffrent uniquementNombre/Type de disques et redondance associe #Paramtre MBX dun DAGSet-MailboxServerautoDatabaseMountDial : BestAvailability = 12 (default)GoodAvailability = 6 Lossless = 0DatabaseCopyAutoActivationPolicyBlocked : activation impossible sur le serveurIntraSiteOnly : activation possible seulement si le MBX est dans le mme site que le MBX dorigine Unrestricted : pas de restrictionMaximumActiveDatabases : DB maximum qui peuvent tre actives sur un MBX

#Fonctionnement rplicationReplication Continue mode FichierChangement depuis Exchange 2007 :TCP Socket au lieu du SMBPlus de pull : la copie passive notifie la copie active des fichiers rcuprer (TCP notification), la copie active pousse alors les fichiers (TCP socket)Une copie passive peut tre source lors dun reseedDB Dossier publics peut tre prsente sur un MBX membre dun DAG, mais la rplication doit toujours sappuyer sur les replicas de dossiersRplication gre par lInformation Store (plus par le service Replication) => informations dj dans le cache, acclre lactivation de la DB#Fonctionnement rplicationFichier de log = 1 MoRplication peut tre compresse / encrypte :Entre toutes les machinesEntre VLANPour du seedingCopyQueueLength = Nb Log en attente dtre copies et inspectesReplayQueueLength = Nb Log en attente de commitSet-mailboxdatabasecopy:-ReplayLagTime = dlai avant commit (14 j max)- TruncationLagTime = dlai du purge des logs aprs commit (14 j max)-ActivationPreference = Utiliser lors du calcul de la meilleure copie activer, et dans la redistribution des DB

#Quorum et FileShareWitnessIntgrit: Tous les nuds doivent disposer des mmes informations de configurationService Cluster ne dmarre pas si le nud ne dispose pas des dernires informations

Calcul de majorit dans le DAGNombre de nuds pairs : quorum => File Share MajorityRessource Quorum FileShareWitness : vite les phnomnes de split-brain. Verrou est positionn sur le fichier witness.log par un nud (SMB), il possde alors une double voix lors des lections. Les autres nuds qui peuvent le contacter sont additionns dans le calcul/!\ FileShareWitness ne possde pas de copie du QuorumNombre de nuds impairs : Quorum => Majorit de nudsNombre de nuds insuffisants pour obtenir la majorit => le service sarrte

Recommandation Crer un DAG avec un FileShareWitness mme si nombre de nuds impair (permet danticiper la modification du nombre de nuds dans lavenir)Positionner le Share sur un serveur Exchange (HT) afin que les MBX disposent par dfaut des droits ncessaires sur le partage#Active ManagerPrimary Active Manager (PAM)Un des nuds du DAGIl dcide quelle copie doit tre active et passive dans le DAGIl reoit les modifications de topologie, dtat des nuds et il ragit une panneIl est toujours le nud qui possde la ressource Quorum du cluster GroupIl faut dplacer le rle PAM avant deffectuer une maintenance sur le serveurEn cas de panne, un autre nud capture le rle PAM

Standby Active ManagerIl dtecte les pannes sur les bases locales ou lInformation StoreIl demande au PAM en cas de panne deffectuer une bascule de DBIl transmet linformation du nud qui possde la base active aux autre rles nots comme Active Manager ClientIl reoit les informations de supervision du service de rplication ou du moteur ESE (problme dI/O)Le SAM est prsent sur tous les nuds (y compris sur celui hberge le PAM)

Standalone Active ManagerRle MBX non membre dun DAG#Slection de la meilleure copieBest Copy Selection (BCS)Dtection du meilleur nud pour activer la copie (jusqu 10 critres sont utiliss)Attempt to Copy Last Log (ACLL) : Tentative de copie de toutes les dernires log manquante depuis la DB ActivePAM demande au nud qui hberge la meilleure copie de la monterPas de perte de logs / lossless failover => pas de perte dinformationPerte de logs => le MBX contacte les HT pour obtenir des messages conservs en tampon (Transport Dumpster)

Raison pour que la meilleure copie ne monte pas:Nombre de logs perdues > autodabasemountdialNombre de DB active >= MaximumActiveDatabasesCopie suspendue dactivation (DatabaseCopyAutoActivationPolicy)=> PAM demande alors la meilleure copie suivante de monter, etc.#Slection de la meilleure copieAlgorithme (RTM)1re tape : DB ligibleStatut = healthy, disconnectedAndHealthy, disconnectedandresynchronizing, seedingsource2ime tape : Tri1er niveau : Copy Queue Length/ LastLogInspected => la plus grande log inspecte est mise en premier.2ime niveau : ActivationPreference => le plus faible est mis en premier

#Slection de la meilleure copieAlgorithme (RTM)3ime tape : Validation de ltat de la copie

#Slection de la meilleure copie1re tape : Toutes les copies sont healthy ou disconnectedandhealthy2ime tape tri : Srv3, Srv2, Srv43ime tape :

ACCL : si log manquantes < autodabasemountdial => mounted + Transport Dumpster sinon, essai avec la copie du Srv2, etc.Database Copy Activation Preference Copy Queue Length Replay Queue Length Content Index State Database State Activation Blocked Srv2\DB1240HealthyHealthyNoSrv3\DB1322HealthyDisconnectedAndHealthyNoSrv4\DB14100CrawlingHealthyNoSrv3Srv2Srv4PhaseCopyQueueReplayQueueContentIndexXXPhase1< 10 logs< 50 logsHealthyPhase2< 10 logs< 50 logsCrawlingPhase3==========< 50 logsHealthyXPhase4==========< 50 logsCrawlingPhase5==========< 50 logs=