Post on 04-Apr-2015
Raphaël BolzeLIP ENS Lyon, Doctorant CNRS BDI
Projet GRAALhttp://graal.ens-lyon.fr
Épopée d’expériences DIET sur Grid5000
Plan
• Présentions de DIET Principe de base
• Fonctionnement de Grid5000 (vue utilisateur) Les sites. Réservation : OAR, gridPrem’s
• Les expériences possibles Passage à l’échelle Performance de DIET Tester les fonctionnalités de DIET
• Récit d’une expérience Description Résultats Bilan de l’expérience
• Autre expérience• Perspectives
Distributed Interactive Engineering Toolbox
http://graal.ens-lyon.fr/DIET
RPC et Grid Computing: Grid RPC
AGENT(s)
S1 S2 S3 S4
A, B, C
Answer (C)
S2 !
Request
Op(C, A, B)
Client
Environment DIET
CLIENT
SequentialApplication
Data managementApplication
Parallel Application
C C
CC
C
C CC C
AA AS S S
A S S S
A
AA
A
A
A
A
DIET Architecture
LA
MA
LA
LALA
Server front end
Master Agent
Local Agent
Client
MA
MA
MA
MA
JXTA
FAST libraryApplicationModeling
Systemavailabilities
LDAP NWS
DIET : installation et déploiement
• Un compte utilisateur
• CORBA : omniORB4
• gcc/g++
• Librairies nécessaires pour les SeD. (BLAS)
• Déploiement : Fichiers de configuration; Lancement de omniNames (serveur de noms CORBA); Lancement de l’outil de log : LogCentral; Lancement de la hiérarchie DIET.
DIET : déploiement
LogCentral
XML:-Ressources
- Machines- Stockages
-DIET Hiérarchie
Grid’5000vue utilisateur
Fonctionement de Grid5000
Orsay 216 Lyon 56
Grenoble 124 Sophia 105
Toulouse 57 Bordeaux 48
Rennes 259 Lilles 51
Nancy 47
• 963 noeuds
• 1926 processeurs
• 4 types de processeurs différents :• IA64
• powerPC
• x86
• x86-64
• Un ‘/home/lyon/rbolze’ pour chaque site
• Connexion sur les frontales des sites pour la réservation OAR
• Pas de communication vers l’extérieur
Les expériences possibles
• Passage à l’échelle. DIET sur un grand nombre de machines
• Connaître les performances de DIET Établir un référentiel des performances de DIET
Coût de l’ordonnancement Surcoût des couches DIET (client/serveur)
• Tester les différentes fonctionnalités de DIET Outil de monitoring : LogService Plugin-scheduler File d’attente Ordonnancement par fenêtrage Persistance des données DTM/JUXMEM Multi-MA …
Expérience : Calcul intensif
• But :• Connaître les surcoûts de DIET.
• Faire une expérience dimensionnante avec DIET.
• Protocole de l’expérience :• Déployer DIET sur un maximum de site en employant un
maximum de machines;
• Une quantité de travail initial : nombre défini de requêtes lancer par un grand nombre de client; Comparaison temps d’exécution DIET / temps moyens
locaux d’exécution sur les machines serveurs.
Calcul intensif : réalisation
• Planification :• Réservation des machines avec OAR/GridPrem’s
oarsub -r "2006-02-20 9:00:00" -l nodes=50,walltime=4 "sleep 14400"
Host:Port = capricorne.lyon.grid5000.fr:42074 IdJob = 25532
Reservation mode : waiting validationReservation valid --> OK
Calcul intensif : réalisation
• Étapes pour le lancement d’une expérience : Obtenir la liste des machines réservées. Vérification des machines. Modifier le fichier de déploiement en fonction des
machines obtenues Déploiement de la hiérarchie avec GoDIET Lancement des clients
Calcul intensif1 MA
8 LA
540 SeD dgemm
Orsay : 40 s Lyon : 38 s
Toulouse : 33 s
Sophia : 40 s
Parasol : 33 s Bordeaux : 33 s
Paraci : 11 s Lilles : 34 s
Paravent : 9 s
2 requêtes par SeD, si plus placement des requêtes dans une file d’attente
1120 clients répartis sur 140 machines
les clients font des requêtes dgemm sur une matrice de taille 2000 pendant X s.
Ordonnancement Round-Robin basé sur le time_since_last_solve
Calcul intensif :premiers résultats
Lyon
Orsay
Recherche d’une explication
MA
SeD SeD
omniORB-4.0.6
gcc-4.0
dietomniORB-4.0.6
gcc-3.3
diet
TIME_SINCE_LAST_SOLVE= 411
TIME_SINCE_LAST_SOLVE= inf
TIME_SINCE_LAST_SOLVE= 379
TIME_SINCE_LAST_SOLVE= 379
Calcul intensif :
• Rappel sur la configuration de l’expérience 1120 clients qui appellent le service « dgemm » sur la
plate-forme DIET 540 SeD capables d’exécuter le service « dgemm » Les SeD ne peuvent pas exécuter plus de deux
requêtes à la fois Ordonnancement Round-Robin basé sur le
time_since_last_solve.
Bilan de l’expérience
Utilisation de Grid5000 Lancement des expériences Passage à l’échelle réussit Bug omniORB-4.0.6/gcc-4.0 Problème de compatibilité des fonctionnalités DIET. Modification de la méthode de lancement avec
GoDIET Performance de l’ordonnancement
Temps d'ordonnancement
0
10
20
30
40
50
60
70
1 866 1731 2596 3461 4326 5191 6056 6921 7786 8651 9516 10381 11246 12111 12976
requête
tem
ps
en s
Moyenne = 1,97 s
Ecart Type = 5,48 s
Mediane = 0,51 s
Max = 65,01 s
Min = 0.009 s
Autre expérience
• Test de l’impact du LogService
Publication : PARALLEL AND DISTRIBUTED
COMPUTING Workshop of ICCSA 2006
Perspectives
• D’autres expériences : Calcul avec transport des données Test du plugin-scheduler Test de la persistance des données DTM/JUXMEM Impact de la hiérarchie DIET. Tolérances aux fautes …
Questions ?