Post on 08-Jul-2015
description
CAS
Architektura Exchange 2013
Przy połączeniu do skrzynki, protokół wykorzystany do połączenia jest zawszeudostępniany przez serwer, na którym jest aktywna kopia bazy danych
Obsługa serwisowa Exchange Online zmieniła mechanizmy monitorowania
Rozbudowana automatyzacja
Monitorowanie
User
DAG1
MBX-A MBX-BMBX-BMBX-A
Layer 4LB
Doświadczenia zebrane przez grupę wsparcia Office365
Monitorowanie oparte na doświadczeniach użytkowników
Optymalizacja Exchange pod kątem odtwarzania funkcjonalności
Jeżeli nie możesz czegoś zmierzyć, nie możesz tym zarządzać
DostępnośćCzy usługa jest dostępna?
OpóźnienieJakie jest moje doświadczenie?
BłędyCzy jestem w stanie uzyskać to co chcę?
Dostępność
BłędyOpóźnienie
Customer Touch
Points
—OWA send
—OWA failure
—OWA fast recovery
—OWA verified as healthy
—OWA send
—OWA failure
—OWA fast recovery
—Failover server’s databases
—OWA verified as healthy
—Server becomes “good” failover target (again)
LB CAS-1
CAS-2
DAG
MBX-1
DB1 DB2
MBX-2
OWA DB1 DB2
MBX-3
OWA DB1 DB2
OWAOWAOWAOWA DB1
DB1
“stuff breaks and the Experience does not”
Managed Availability
“state of the world”
“take human
driven action”
“restore service or
prevent failure”
Exchange
2013
Server
Managed
Availability
PROACTIVE REACTIVE
20s 5min 20min
System Level ChecksMailbox Self Test(e.g. OWA MST) [detection 5m]
Protocol Self Test(e.g. OWA PST) [detection 20 secs]
Proxy Self Test(e.g. OWA PrST) [detection 20 secs]
End User Experience Level ChecksCustomer Touch Point – CTP(e.g. OWA CTP) [detection 20m]
“state of the world”
“take human
driven action”
“take human
driven action”
“restore service or
prevent failure”
Monitor States
Próbkowanie Wykrywanie Odtwarzanie
Probe Definition
Monitor Definition
Responder Results
(Responses)
Responder Definition
T3
00:00:00
00:00:10
00:00:30
Restart Responder
Reset AppPool
Responder
Failover responder
Bugcheck responder
Offline Responder
Escalate Responder
Przykład potoku
sekwencyjnego
respondera HA
Named Times
Probe Results (Samples) ResponderProbe
Notification Item
Monitor Results (Alerts)
Healthy
T1
T2
Monitor
Recovery
Action
Enable
d
Per Server Per GroupMinutes Between
Actions
Max Allowed
Per Hour
Max Allowed
Per Day
Minutes
Between Actions
Max Allowed
Per Day
ForceReboot True 720 N/A 1 600 4
SystemFailover True 60 N/A 1 60 4
RestartService True 60 N/A 1 60 4
ResetIISPool True 60 N/A 1 60 4
DatabaseFailover True 120 N/A 1 120 4
ComponentOffline True 60 N/A 1 60 4
ComponentOnline True 5 12 288 5 Large
MoveClusterGroup True 240 N/A 1 480 3
ResumeCatalog True 5 4 8 5 12
WatsonDump True 480 N/A 1 720 4
ProtocolHealth Set
ProxyHealth Set
CTPHealth Set
OWA
OWA.Proxy
OWA.Protocol
Get-ServerHealth pokazuje szczegółowe informacje o „stanie zdrowia” serwera lub grupy serwerów
Get-HealthReport operuje na tych samych danych pokazując zwięzły raport
Jak sprawdzić, które próbniki, monitory i respondery są powiązane z danym Healt Setem?
Get-MonitoringItemIdentity –Identity <HealthSet> -Server <ServerName> | ftidentity,itemtype,healthsetname,name -auto
Bardziej szczegółowe wyniki – tylko „niezdrowe” komponenty
get-healthreport -server srv-ex1 | where {$_.alertvalue -ne “healthy”} | ft –auto
Informacja o restartach realizowanych przez respondery:
$RecoveryActionResultsEvents = Get-WinEvent –ComputerName srv-ex1 -LogNameMicrosoft-Exchange-ManagedAvailability/RecoveryActionResults
$RecoveryActionResultsXML = ($RecoveryActionResultsEvents | Foreach-object -Process {[XML]$_.toXml()}).event.userData.eventXml
$RecoveryActionResultsXML > c:\Scripts\recoveryresults.txt
View OverridesGet-ServerMonitoringOverride –Server <Server>
Get-GlobalMonitoringOverride
Create OverrideAdd-ServerMonitoringOverride <HealthSet>\<Name> -Server <Server> -ItemType<Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue <Value>
Add-GlobalMonitoringOverride <HealthSet>\<Name> -ItemType<Monitor,Probe,Responder> [-Duration <Time> -ApplyVersion <Version>] -PropertyName <Property> -PropertyValue <Value>
Remove OverrideRemove-ServerMonitoringOverride
Remove-GlobalMonitoringOverride
Alert wyeksponowany w konsoli SCOM, niekoniecznie wskazuje sumę wszystkich problemów w danym momencie
Active Alerts
Organization Health
Server Health
Stan Health Groupy jest wyliczany na podstawie stanu monitorów w danej grupie
Health Group może mieć jeden z sześciu stanów: Healthy, Degraded, Unhealthy, Repairing, Disabled lubUnavailable
http://pepugmaster.blogspot.com/2013/12/nadpisywanie-ustawien-managed.html
http://support.microsoft.com/kb/2911802/pl
http://technet.microsoft.com/en-us/library/dn195892(v=exchg.150).aspx
http://pepugmaster.blogspot.com/2013/11/poprawki-aspnet-dla-exchange-2013.html
http://blogs.technet.com/b/exchange/archive/2012/09/21/lessons-from-the-datacenter-managed-availability.aspx
http://blogs.technet.com/b/exchange/archive/2013/07/16/managed-availability-monitors.aspx
http://blogs.technet.com/b/exchange/archive/2013/06/13/what-did-managed-availability-just-do-to-this-service.aspx
http://blogs.technet.com/b/exchange/archive/2013/08/13/customizing-managed-availability.aspx
http://pepugmaster.blogspot.com/2013/11/wykorzystanie-karmazynowego-kanau-do.html
http://pepugmaster.blogspot.com/2013/10/monitorowanie-stanu-serwera-exchange.html