Détection de défaillances et algorithmes répartis pour les GRIDs

21
1 Détection de Détection de défaillances et défaillances et algorithmes répartis algorithmes répartis pour les GRIDs pour les GRIDs Marin BERTIER Marin BERTIER Thèmes SRC Laboratoire d'Informatique de Paris 6 Université Pierre & Marie

description

Détection de défaillances et algorithmes répartis pour les GRIDs. Marin BERTIER. Thèmes SRC Laboratoire d'Informatique de Paris 6 Université Pierre & Marie Curie. Introduction. Contexte. Développement des GRIDs Grand nombre de sites Organisé hiérarchique Niveau local  cluster - PowerPoint PPT Presentation

Transcript of Détection de défaillances et algorithmes répartis pour les GRIDs

Page 1: Détection de défaillances et algorithmes répartis pour les GRIDs

11

Détection de Détection de défaillances et défaillances et

algorithmes répartis algorithmes répartis pour les GRIDspour les GRIDs

Marin BERTIERMarin BERTIER

Thèmes SRCLaboratoire d'Informatique de Paris 6Université Pierre & Marie Curie

Page 2: Détection de défaillances et algorithmes répartis pour les GRIDs

2

ContexteContexte

►Développement des GRIDsDéveloppement des GRIDs Grand nombre de sitesGrand nombre de sites Organisé hiérarchiqueOrganisé hiérarchique

►Niveau local Niveau local cluster cluster►Niveau Global Niveau Global Inter-cluster Inter-cluster

Dissymétrie des communications Dissymétrie des communications ►cluster: Fiables et rapidescluster: Fiables et rapides►Inter-cluster: …Inter-cluster: …

Introduction

Page 3: Détection de défaillances et algorithmes répartis pour les GRIDs

3

Introduction

Détection de défaillancesDétection de défaillances

► Impossibilité de résoudre le consensus dans Impossibilité de résoudre le consensus dans un système asynchrone [FLP85]un système asynchrone [FLP85]

► Caractéristiques :Caractéristiques : Fournissent une liste non fiable des processus Fournissent une liste non fiable des processus

suspectés d’être défaillantssuspectés d’être défaillants Complétude : Un processus défaillant doit être Complétude : Un processus défaillant doit être

considéré comme défaillant par les autresconsidéré comme défaillant par les autres Justesse : Un processus correct ne doit pas être Justesse : Un processus correct ne doit pas être

considéré défaillantconsidéré défaillant

►Modèle partiellement synchrone Modèle partiellement synchrone (GTS)(GTS)

Page 4: Détection de défaillances et algorithmes répartis pour les GRIDs

4

Techniques de détectionTechniques de détection

► Applicatif (refus de services)Applicatif (refus de services)► PingingPinging

► HeatbeatHeatbeat

Détecteur sur qp up

p down

p up

p

q

Détecteur sur q

p up

p down

p up

p

q

Introduction

Page 5: Détection de défaillances et algorithmes répartis pour les GRIDs

5

Qualité de serviceQualité de service►MétriquesMétriques

Temps de détectionTemps de détection Temps entre deux erreurs (TTemps entre deux erreurs (TMRMR)) Durée des erreurs (TDurée des erreurs (TMM))

Introduction

DF

TM

TMR

Processus p up

Page 6: Détection de défaillances et algorithmes répartis pour les GRIDs

6

Détecteurs de défaillancesDétecteurs de défaillances

►Fonctionnement « hearbeat »Fonctionnement « hearbeat »►Défaillances: Défaillances:

crash / ‘recovery’crash / ‘recovery’ perte de messagesperte de messages

►Adaptable :Adaptable : Estimations dynamiquesEstimations dynamiques Intervalle d’émissionIntervalle d’émission

►Permet le transport d’informationPermet le transport d’information

Page 7: Détection de défaillances et algorithmes répartis pour les GRIDs

7

OrganisationOrganisation►Organisation hiérarchique Organisation hiérarchique ► CommunicationCommunication

IP-Multicast au niveau localIP-Multicast au niveau local UDP au niveau globalUDP au niveau global

cluster 1

cluster 3

cluster 2

Organisation Hiérarchique

Page 8: Détection de défaillances et algorithmes répartis pour les GRIDs

8

Niveaux HiérarchiquesNiveaux Hiérarchiques

►Visions:Visions: Niveau Local :Niveau Local :

►Liste des sites du clusterListe des sites du cluster

Niveau global :Niveau global :►Liste des clustersListe des clusters

►Qualité de service différentesQualité de service différentes

Organisation Hiérarchique

Page 9: Détection de défaillances et algorithmes répartis pour les GRIDs

9

ComportementComportement

S1.1

S1.5

S1.2

S1.4

S1.3

S1.2

S2.1

S3.5

cluster 1

cluster 2

cluster 3LENT

S1.5

S1.5

S1.5 S1.4

S1.5

Organisation Hiérarchique

Page 10: Détection de défaillances et algorithmes répartis pour les GRIDs

10

Avantages / DésavantagesAvantages / Désavantages

►Avantages:Avantages: Nombre de messages Nombre de messages (n: nb sites, k: nb (n: nb sites, k: nb

groupes)groupes)►Système plat: n * (n -1)Système plat: n * (n -1)►Hiérarchique: nHiérarchique: n22 / k + k / k + k22 – k – 1 – k – 1►Si n > kSi n > k22 un leader gère moins de messages un leader gère moins de messages

►Partitionnement des informationsPartitionnement des informations►Mise en place de mécanismeMise en place de mécanisme

Élection de leaderÉlection de leader

Organisation Hiérarchique

Page 11: Détection de défaillances et algorithmes répartis pour les GRIDs

11

Election de leaderElection de leader

►Sur le principe de Sur le principe de : : Liste triée de leaders non suspectés Liste triée de leaders non suspectés

(Trusted_Process)(Trusted_Process) Leader : 1er de Trusted_ProcessLeader : 1er de Trusted_Process

►Objectifs :Objectifs : Temps de recouvrement courtTemps de recouvrement court Avoir au moins un leaderAvoir au moins un leader

Organisation Hiérarchique

Page 12: Détection de défaillances et algorithmes répartis pour les GRIDs

12

ArchitectureArchitecture

► Emission de message Emission de message « I-am-alive »« I-am-alive »

► Estimation de baseEstimation de base Compromis entre le Compromis entre le

temps de détection et temps de détection et le nombre de fausses le nombre de fausses détectiondétection

► Fournit : Fournit : Liste de sites suspectsListe de sites suspects Informations sur la Informations sur la

détectiondétection

► Adaptation de Adaptation de l’intervalle d’émissionl’intervalle d’émission

Couche de base Blackboard

Liste de sites suspectsIntervalle d’émissionMarge de détectionQoS observée

Couche d’adaptation 1 Couche d’adaptation 2

Application 1 Application 2

QoS 1 QoS 2Liste desuspects

Liste desuspects

i 1

i 2

Page 13: Détection de défaillances et algorithmes répartis pour les GRIDs

13

ArchitectureArchitecture

Couche de base Blackboard

Liste de sites suspectsIntervalle d’émissionMarge de détectionQoS observée

Couche d’adaptation 1 Couche d’adaptation 2

► Spécifique à Spécifique à l’applicationl’application

► Adapte la QoSAdapte la QoS Différents algorithmesDifférents algorithmes

► Adaptation de Adaptation de l’interfacel’interface Pop ou PushPop ou Push

► Permet différentes Permet différentes vision du systèmevision du système

Application 1 Application 2

QoS 1 QoS 2Liste desuspects

Liste desuspects

i 1

i 2

Page 14: Détection de défaillances et algorithmes répartis pour les GRIDs

14

ArchitectureArchitecture

Couche de base Blackboard

Liste de sites suspectsIntervalle d’émissionMarge de détectionQoS observée

Couche d’adaptation 1 Couche d’adaptation 2

Application 1 Application 2

QoS 1 QoS 2Liste desuspects

Liste desuspects

i 1

i 2

► Représente l’utilisateur Représente l’utilisateur des détecteurs de des détecteurs de défaillance :défaillance : Service de nommageService de nommage

► Fournir le besoin en Fournir le besoin en QoS localQoS local

► Utilise la liste des sites Utilise la liste des sites suspectssuspects

Page 15: Détection de défaillances et algorithmes répartis pour les GRIDs

15

Couche de baseCouche de baseFonctionnementFonctionnement

Architecture

Processus q

FD de q

Processus phi-1 hi hi+1 hi+2

i

i i+1 i+2Freshness points: i-1

Ai

to

Page 16: Détection de défaillances et algorithmes répartis pour les GRIDs

16

Couche de baseCouche de baseEstimation de la date d’arrivéeEstimation de la date d’arrivée

► Calcul de la date butoirCalcul de la date butoir Timeout (Timeout (k+1)= date théorique ()= date théorique (EAEAk+1k+1) + marge ) + marge

dynamique (dynamique (k+1k+1))

►Date théorique : estimation de ChenDate théorique : estimation de Chen

►Marge dynamique (algorithme de Marge dynamique (algorithme de jacobson)jacobson)

111

1

1

..

.

.

kkk

kkkk

kkk

kkkk

vadelay

vaerrorvava

errordelaydelay

delayEAAerror

i

k

kiiik kiA

nEA

.1.

1

11

Architecture

Page 17: Détection de défaillances et algorithmes répartis pour les GRIDs

17

Adaptation du délai Adaptation du délai d’émissiond’émission

►Motivation :Motivation : Besoins variables des applicationsBesoins variables des applications Etat du réseauEtat du réseau

►Négocier entre récepteurs et Négocier entre récepteurs et l’émetteurl’émetteur

Architecture

Page 18: Détection de défaillances et algorithmes répartis pour les GRIDs

18

PerformancePerformance

► Adaptation :Adaptation : Court terme (Marge)Court terme (Marge) Moyen terme (Estimation date)Moyen terme (Estimation date)

► ConclusionConclusion Bon compromis entre temps de détection et le Bon compromis entre temps de détection et le

nombre de fausses détectionsnombre de fausses détections

DynamiqueDynamique RTTRTT ChenChenNb fausses Nb fausses détectionsdétections 2424 5454 2929

Durée erreurs Durée erreurs (ms)(ms) 31,631,6 25,2325,23 36,6136,61

Temps de Temps de détection (ms)détection (ms) 5131,75131,7 5081,795081,79 5672,535672,53

Performances couche de base

Page 19: Détection de défaillances et algorithmes répartis pour les GRIDs

19

Plateforme de testPlateforme de test

► Utilisation de « dummynet » Utilisation de « dummynet » (simulateur reseau)(simulateur reseau)

Introduction de délai de propagationIntroduction de délai de propagation Variation du délai de propagationVariation du délai de propagation Introduction de perte de messagesIntroduction de perte de messages

Group 3Toulouse

Group 2San Francisco

Group 1Paris

Délai : 50ms +/- 10msPerte de messages : 1.2%

Délai : 10ms +/- 4msPerte de messages : 0.5%

Délai : 150ms +/- 25msPerte de messages : 3%

Performances couche d’adaptation

Page 20: Détection de défaillances et algorithmes répartis pour les GRIDs

20

OrganisationOrganisation► Conditions:Conditions:

i = 700msi = 700msNb de sitesNb de sites 44 66 99

1122

1166

Nb de sites par groupe Nb de sites par groupe locallocal 22 33 33 44 44

Nb de groupes localNb de groupes local 22 22 33 33 44

0

0,04

0,08

0,12

0,16

4 9 16

Organisation à platLeader en hiérarchique

Non leader en hiérarchique

Performances couche d’adaptation

Page 21: Détection de défaillances et algorithmes répartis pour les GRIDs

21

ConclusionConclusion

► Service de détection de défaillances:Service de détection de défaillances: ScalableScalable PartagéPartagé AdaptableAdaptable Fournissant une QoS localeFournissant une QoS locale