Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de...

52
Exchange Server 2013 High Availability | Site Resilience Scott Schnoll Principal Technical Writer Microsoft Corporation Serveurs / Entreprise / Réseaux / IT Twitter: Schnoll Blog: http://aka.ms/Schnoll

description

La nouvelle version d'Exchange Server 2013 intègre une foule de nouveautés lui permettant d'être aujourd'hui le serveur de messagerie le plus sécurisé et le plus fiable sur le marché. L'expérience acquise par la gestion des solutions de messagerie Cloud par les équipes Microsoft a été directement intégrée dans cette nouvelle version du produit ce qui va vous permettre la mise en place d'un système de messagerie ultra résilient. Scott Schnoll, Principal Technical Writer dans l'équipe Exchange à Microsoft Corp va vous expliquer de manière didactique l'ensemble des mécanismes de haute disponibilité et les solutions de resilience inter sites dans les plus petits détails. Venez apprendre directement par l'expert qui a travaillé sur ces sujets chez Microsoft ! Attention, session très technique, en anglais.

Transcript of Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de...

Page 1: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Exchange Server 2013High Availability | Site Resilience

Scott SchnollPrincipal Technical Writer

Microsoft Corporation

Serveurs / Entreprise / Réseaux / ITTwitter: SchnollBlog: http://aka.ms/Schnoll

Page 2: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Storage• High Availability• Site Resilience

Agenda

Page 3: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

STORAGE

Page 4: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Capacity is increasing, but IOPS are not• Database sizes must be manageable• Reseeds must be fast and reliable• Passive copy IOPS are inefficient• Lagged copies have asymmetric storage

requirements• Low agility from low disk space recovery

Storage Challenges

Page 5: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Multiple Databases Per Volume• Automatic Reseed• Automatic Recovery from Storage

Failures• Lagged Copy Enhancements

Storage Enhancements

Page 6: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

MULTIPLE DATABASE PER VOLUME

Page 7: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Multiple databases per volume

DB1 DB4DB3DB2

DB4

DB3

DB2

DB1

DB4

DB3

DB2

DB1

DB4

DB3

DB2

DB1 Passive

Active

Lagged

4-member DAG4 databases4 copies of each database4 databases per volume

Symmetrical design with balanced activation preference

Number of copies per database = number of databases per volume

Page 8: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Multiple databases per volume

DB1 DB1DB1DB1

Passive

Active

Lagged

Single database copy/disk:Reseed 2TB Database = ~23 hrsReseed 8TB Database = ~93 hrs

20 MB/s

Page 9: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Multiple databases per volume

DB1 DB4DB3DB2

DB4

DB3

DB2

DB1

DB4

DB3

DB2

DB1

DB4

DB3

DB2

DB1 Passive

Active

Lagged

Single database copy/disk:Reseed 2TB Database = ~23 hrsReseed 8TB Database = ~93 hrs

4 database copies/disk:Reseed 2TB Disk = ~9.7 hrsReseed 8TB Disk = ~39 hrs12 MB/s

12 MB/s

20 MB/s 20 MB/s

Page 10: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Requirements– Single logical disk/partition per physical disk

• Recommendations– Databases per volume should equal the number

of copies per database– Same neighbors on all servers– Balance activation preferences

Multiple databases per volume

Page 11: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

AUTORESEED

Page 12: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Disk failure on active copy = database failover

• Failed disk and database corruption issues need to be addressed quickly

• Fast recovery to restore redundancy is needed

Seeding Challenges

Page 13: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Autoreseed - automatically restore redundancy after disk failure

Seeding Enhancements

In-Use Storage

Spares

X

Page 14: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Autoreseed

Periodically scan for

failed and suspended

copies

Check prerequisite

s: single copy, spare availability

Allocate and remap a

spare

Start the seed

Verify that the new copy is healthy

Admin replaces

failed disk

Page 15: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Autoreseed

Configure storage subsystem with spare

disks

Create DAG, add servers with configured

storage

Create directory and mount points

Configure DAG, including 3 new

properties

Create mailbox databases and

database copies

\

ExchDbs

ExchVols

Vol1 Vol3MDB1 MDB2

MDB1

Vol2

MDB2

MDB1.DB MDB1.log

MDB1.DB MDB1.log

AutoDagDatabasesRootFolderPath

AutoDagVolumesRootFolderPath

AutoDagDatabaseCopiesPerVolume = 1

Page 16: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Requirements– Single logical disk/partition per physical disk– Specific database and log folder structure must be used

• Recommendations– Same neighbors on all servers– Databases per volume should equal the number of copies

per database– Balance activation preferences

• Configuration instructions– http://aka.ms/autoreseed

Autoreseed

Page 17: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

AUTOMATIC RECOVERY FROM STORAGE FAILURES

Page 18: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Storage controllers are basically mini-PCs– As such, they can crash, hang, etc., requiring

administrative intervention

• Other operator-recoverable conditions can occur– Loss of vital system elements– Hung or highly latent IO

Recovery Challenges

Page 19: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Innovations added in Exchange 2010 carried forward

• New recovery behaviors added to Exchange 2013– Even more added to Exchange 2013 CU1

Recovery Enhancements

Exchange Server 2010 Exchange Server 2013

ESE Database Hung IO (240s) System Bad State (302s)

Failure Item Channel Heartbeat (30s) Long I/O times (41s)

SystemDisk Heartbeat (120s) MSExchangeRepl.exe memory threshold (4GB)

Exchange Server 2013 CU1

Bus reset (event 129)

Replication service endpoints not responding

Page 20: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

LAGGED COPY ENHANCEMENTS

Page 21: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Activation is difficult• Lagged copies require manual care• Lagged copies cannot be page

patched

Lagged Copy Challenged

Page 22: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Automatic log file replay in a variety of situations– Low disk space (enable in registry)– Page patching (enabled by default)– Less than 3 other healthy copies (enable in AD;

configure in registry)

• Integration with Safety Net– No need for log surgery or hunting for the point

of corruption

Lagged Copy Enhancements

Page 23: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

HIGH AVAILABILITY

Page 24: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• High availability focuses on database health

• Best copy selection insufficient for new architecture

• Management challenges around maintenance and DAG network configuration

High Availability Challenges

Page 25: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Managed Availability• Best Copy and Server Selection• DAG Network Autoconfig

High Availability Enhancements

Page 26: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

MANAGED AVAILABILITY

Page 27: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Key tenet for Exchange 2013:– All access to a mailbox is provided by the protocol stack on the

Mailbox server that hosts the active copy of the user’s mailbox

• If a protocol is down on a Mailbox server, all active databases lose access via that protocol

• Managed Availability was introduced to detect these kinds of failures and automatically correct them– For most protocols, quick recovery is achieved via a restart action– If the restart action fails, a failover can be triggered

• Each protocol team designed their own recovery sequence, which is based on their experiences running Office 365 – service experience accrues to the on-premises admin!

Managed Availability

Page 28: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• An internal framework used by component teams

• Sequencing mechanism to control when recovery actions are taken versus alerting and escalation

• Enhances the best copy selection algorithm by taking into account server health

• Includes a mechanism for taking servers in/out of service (maintenance mode)

Managed Availability

Page 29: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• MA failovers are recovery action from failure– Detected via a synthetic operation or live data– Throttled in time and across the DAG

• MA failovers come in two forms– Server: Protocol failure can trigger server failover– Database: Store-detected database failure can trigger database

failover

• MA includes Single Copy Alert– Alert is per-server to reduce flow– Still triggered across all machines with copies– Monitoring triggered through a notification– Logs 4138 (red) and 4139 (green) events

Managed Availability

Page 30: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

BEST COPY AND SERVER SELECTION

Page 31: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Exchange 2010 used several criteria– Copy queue length– Replay queue length– Database copy status – including activation

blocked– Content index status

• Using just this criteria is not good enough for Exchange 2013, because protocol health is not considered

Best Copy Selection Challenges

Page 32: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Still an Active Manager algorithm performed at *over time based on extracted health of the system– Replication health still determined by same criteria and phases– Criteria now includes health of the entire protocol stack

• Considers a prioritized protocol health set in the selection– Four priorities – critical, high, medium, low (all health sets have

a priority)– Failover responders trigger added checks to select a “protocol

not worse” target

Best Copy and Server Selection

Page 33: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Best Copy and Server Selection

All HealthyChecks for a server hosting a copy that has all health sets in a healthy state

Up to Normal HealthyChecks for a server hosting a copy that has all health sets Medium and above in a healthy state

All Better than SourceChecks for a server hosting a copy that has health sets in a state that is better than the current server hosting the affected copy

Same as SourceChecks for a server hosting a copy of the affected database that has health sets in a state that is the same as the current server hosting the affected copy

Page 34: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

DAG NETWORK AUTOCONFIG

Page 35: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• DAG networks must be manually collapsed in a multi-subnet deployment

• Continuing to reduce administrative burden for deployment and initial configuration

DAG Network Challenges

Page 36: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• DAGs now default to automatic configuration– Still requires specific configuration settings on NICs– Manual edits and EAC controls blocked when

automatic networking is enabled– Set DAG to manual network setup to edit or change

DAG networks

• Multi-subnet DAG networks automatically collapsed

DAG Network Enhancements

Page 37: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

DAG Network Enhancements

Page 38: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

SITE RESILIENCE

Page 39: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Operationally complex• Mailbox and Client Access recovery

connected• Namespace is a SPOF

Site Resilience Challenges

Page 40: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Operationally simplified• Mailbox and Client Access recovery

independent• Namespace provides redundancy

Site Resilience Enhancements

Page 41: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Previously loss of CAS, CAS array, VIP, LB, some portion of the DAG required admin to perform a datacenter switchover

• In Exchange Server 2013, recovery happens automatically– The admin focuses on fixing the issue, instead

of restoring service

Site Resilience – Operationally Simplified

Page 42: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Previously, CAS and Mailbox server recovery were tied together in site recoveries

• In Exchange Server 2013, recovery is independent, and may come automatically in the form of failover

Site Resilience – Recovery Independent

Page 43: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• DNS resolves to multiple IP addresses• Almost all protocol access in Exchange 2013 is

HTTP• HTTP clients have built-in IP failover capabilities• Clients skip past IPs that produce hard TCP failures• Admins can switchover by removing VIP from DNS• Namespace no longer a SPOF• No dealing with DNS latency

Site Resilience – Namespace Redundancy

Page 44: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• With the namespace simplification, consolidation of server roles, separation of CAS array and DAG recovery, and load balancing changes, three locations can simplify mailbox recovery and provide datacenter failovers

• You must have at least three locations– Two locations with Exchange; one with witness server– Exchange sites must be well-connected– Witness server site must be isolated from network failures

affecting Exchange sites

Site Resilience – Three Locations

Page 45: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

alternate datacenter: Portlandprimary datacenter: Redmond

Site Resilience

cas3 cas4cas1 cas2

VIP: 192.168.1.50X VIP: 10.0.1.50

mail.contoso.com: 192.168.1.50, 10.0.1.50

Removing failing IP from DNS puts you in control of in service time of VIPWith multiple VIP endpoints sharing the same namespace, if one VIP fails, clients automatically failover to alternate VIP and just work!

mail.contoso.com: 10.0.1.50

Page 46: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

third datacenter: Paris

alternate datacenter: Portland

primary datacenter: Redmond

Site Resilience

dag1mbx1 mbx2 mbx3 mbx4

Assuming MBX3 and MBX4 are operating and one of them can lock the witness.log file, automatic failover should occur

witness

X

Page 47: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

alternate datacenter: Portlandprimary datacenter: Redmond

Site Resilience

dag1

witness

mbx1 mbx2 mbx3 mbx4XXX

Page 48: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

alternate datacenter: Portlandprimary datacenter: Redmond

dag1

Site Resilience

witness

mbx1 mbx2 mbx3 mbx4

alternate witness

1. Mark the failed servers/site as down: Stop-DatabaseAvailabilityGroup DAG1 –ActiveDirectorySite:Redmond

2. Stop the Cluster Service on Remaining DAG members: Stop-Clussvc

3. Activate DAG members in 2nd datacenter: Restore-DatabaseAvailabilityGroup DAG1 –ActiveDirectorySite:Portland

X

Page 49: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

SUMMARY

Page 50: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

• Many storage enhancements targeted towards JBOD environments

• Numerous high availability improvements

• Site resilience operationally simplified

Summary

Page 51: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Scott SchnollPrincipal Technical [email protected]://aka.ms/schnoll schnoll

Questions?

Page 52: Exchange Server 2013 : les mécanismes de haute disponibilité et la redondance / résilience de site

Formez-vous en ligne

Retrouvez nos évènements

Faites-vous accompagner gratuitement

Essayer gratuitement nos solutions IT

Retrouver nos experts Microsoft

Pros de l’ITDéveloppeurs

www.microsoftvirtualacademy.com

http://aka.ms/generation-app

http://aka.ms/evenements-developpeurs

http://aka.ms/itcamps-france

Les accélérateursWindows Azure, Windows Phone,

Windows 8

http://aka.ms/telechargements

La Dev’Team sur MSDNhttp://aka.ms/devteam

L’IT Team sur TechNethttp://aka.ms/itteam