Revenus Locaux et Financement des Projets d'Infrastructure au Maroc...par Salah Benyoussef
Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon [email protected] IReS, 4 octobre 2002 La grille et...
-
Upload
ansell-bellet -
Category
Documents
-
view
102 -
download
0
Transcript of Fabio HERNANDEZ Centre de Calcul de l'IN2P3 - Lyon [email protected] IReS, 4 octobre 2002 La grille et...
Fabio HERNANDEZCentre de Calcul de l'IN2P3 - [email protected], 4 octobre 2002
La grille et DataGRIDune nouvelle génération d'infrastructure informatique
F. Hernandez 2
Table des Matières
Le concept de grille Architecture de grille Cas concret
Infrastructure DataGRID Applications
Perspectives Conclusion
F. Hernandez 3
Le concept de grille
Infrastructure matérielle et logicielle visant à fournir un accès sûr, cohérent, économique à des ressources informatiques hétérogènes distribuées géographiquement gérées de façon décentralisée
Intégration massive des ressources Diversité des ressources
calculateurs, dispositifs de stockage, sources de données, ressources humaines, ...
F. Hernandez 4
Le concept de grille (suite)
Diversité des besoins performances, bande passante, latence, sécurité,
intégrité, fiabilité, capacité de calcul, disponibilité de services logiciel
Accès à des services standards via des interfaces standards comment cacher l'hétérogénéité sans
compromettre les performances? Pour se généraliser, les services proposés
doivent être accessibles à des coûts intéressants et avec une certaine "qualité de service" (disponibilité, prévisibilité, ...)
F. Hernandez 5
Le concept de grille (suite)
Plusieurs profiles d'applications Calcul intensif distribué
utilisation d'un grand nombre des ressources pour la résolution de problèmes qui ne peuvent être abordés avec les capacités locales
Analyse des grandes quantités de données exploration des données géographiquement dispersées
Calcul à la demande satisfaire des besoins ponctuels de puissance de traitement
Travail coopératif visualisation de données, formation, conception distribuée
F. Hernandez 6
Architecture de grille
Diversité des applications et des utilisateurs (profile, nombre, ...) supposent des solutions différentes architectures différentes avec des services
communs et plus ou moins de recouvrement Services de base
authentification: établir l'identité de l'utilisateur autorisation: établir le droit d'un utilisateur à
utiliser des ressources (données, CPUs, ...) communication entre tâches
F. Hernandez 7
Architecture de grille (suite)
Services de base (suite) contrôle de tâches: création, suspension,
arrêt de l'exécution politiques d'allocation de ressources comptabilité de l'utilisation de ressources
et mécanismes de paiement mécanismes de protection des
tâches/données services de stockage (fichier, mémoire
virtuelle, base de données, ...)
F. Hernandez 8
Architecture de grille (suite)
Problèmes inhérents authentification unique spécification des ressources nécessaires pour une
tâche localisation des ressources disponibles gestion des autorisations réservation des ressources accès aux données distantes collecte de résultats comptabilité ...
F. Hernandez 9
Architecture de grille (suite)
Complexité des applications parallèles, interactives, multimédia, ...
Les caractéristiques des ressources est très variable (temps, espace)
Absence de contrôle global de l'infrastructure comment proposer et garantir un service cohérent
et un certain niveau de qualité? Problèmes inhérents aux politiques de
chaque site (fournisseur de ressources) sécurité, autorisations, comptabilité, budget
F. Hernandez 10
Architecture de grille (suite)
:
:E.g.,
Resource-specific implementations of basic services
E.g., transport protocols, name servers, differentiated services, CPU schedulers, public key infrastructure, site accounting, directory service, OS bypass
Resource-independent and application-independent services
authentication, authorisation, resource location, resource allocation, events, accounting, remote data access, information, policy, fault detection
Distributedcomputing
toolkit
Grid Fabric (Resources)
Grid Services (Middleware)
Application Toolkits
Data-intensive
applicationstoolkit
Collaborativeapplications
toolkit
RemoteVisualisationapplications
toolkit
Problemsolving
applicationstoolkit
Remoteinstrumentation
applicationstoolkit
Applications Chimie
Biologie
Cosmologie
High Energy Physics
Environnement
F. Hernandez 11
DataGRID
Titre: Research and Technological Development for an International Data Grid
Projet européen conduit par la communauté de physique des particules organisée autour du CERN
Subvention: ~10 M€ sur 3 ans (2001-2003) pour des salaires partenaires apportent au moins autant
Objectif: "To enable next generation scientific exploration which
requires intensive computation and analysis of shared large-scale databases, from hundreds of terabytes to petabytes, across widely distributed scientific communities."
F. Hernandez 12
DataGRID: objectif
Développer un prototype du logiciel intermédiaire (middle-ware)
Déployer une plate-forme de test du système Physique des particules Applications bio-médicales Observation de la terre
Permettre le transfert des technologies de ce type vers l'industrie
F. Hernandez 13
DataGRID: partenaires
Partenaires principaux
Partenaires associés En France: Comissariat à l'Energie Atomique (CEA-
Saclay), Communication et Systèmes D'autres instituts de recherche/sociétés en Italie,
Finlande, Espagne, Suède, Hongrie, Grande Bretagne, Pays Bas
F. Hernandez 14
DataGRID: organisation
Groupes de travail (work packages) Middleware
WP1: Workload management (Francesco Prelz - INFN) WP2: Data management (Peter Kunszt - CERN) WP3: Monitoring services (Steve Fischer – RAL) WP4: Fabric management (Olof Barring – CERN) WP5: Mass storage management (John Gordon – RAL)
Infrastructure WP6: Integration testbed (François Etienne –
CNRS/IN2P3) WP7: Network services (Pascale Primet – CNRS/ENS
Lyon)
F. Hernandez 15
DataGRID: organisation (suite)
Groupes de travail (suite) Applications
WP8: High-Energy physics applications (Franck Harris – LHCB-Oxford/CERN)
WP9: Earth observation science application (Luigi Fusco – ESA)
WP10: Biology science application (Vincent Breton – CNRS/IN2P3)
Management WP11: Dissemination (Maurizio Lancia – INFN) WP12: Project Management (Fabrizio Gagliardi – CERN)
F. Hernandez 16
DataGRID: technologies de base
Utilisation de Globus comme middle-ware de bas niveau
Boîte à outils généraliste pour la construction de grilles de calcul développée conjointement entre Univ. Chicago/Argonne
et Univ. Southern California Séparation entre services locaux (à un
site/domain) et services globaux (pour la grille) Services de base utilisés dans DataGRID
service d'information sécurité (authentification) gestion de ressources gestion des fichier distants
F. Hernandez 17
DataGRID: état d'avancement
Des composants middle-ware au dessus de Globus Plate-forme de test déployée
sites: CERN (CH), CC-IN2P3 (FR), CNAF (IT), NIKHEF (NL), RAL (UK)
première version (Testbed 1) en mars 2002 pour la démonstration aux rapporteurs de l'UE
deuxième version en cours de déploiement plusieurs releases entre temps
Tests grandeur réelle par plusieurs applications Physique (Atlas, CMS, D0,...), Bio-médicales (génomique),
observation de la terre (analyse de données de satellite)
F. Hernandez 18
DataGRID: état d'avancement (suite)
F. Hernandez 19
DataGRID: état d'avancement (suite)
Quelques services de base en place Authentification
utilisation de l'infrastructure de sécurité proposée par Globus (certificats X509 et échanges chiffrés)
autorités de certification pour délivrer des certificats aux individus/machines participant au projet
Soumission et ordonnancement des travaux batch service central d'ordonnancement s'appuyant sur les
gestionnaires locaux à chaque site Gestion des données
catalogue et moyens d'accès aux données
F. Hernandez 20
DataGRID: vue d'ensemble
…….……
IN2P3 Computing Center
User HomeLaboratory
…….……
CERN Computing CenterDataGRID Services
Resource Broker
1
2
Data localization service
Data transfer service
3
4
F. Hernandez 21
DataGRID: vue d'ensemble (suite)
Logging & Logging & Bookeeping ServicecBookeeping Servicec
1a 2bUIJDL
Replica Replica CatalogCatalog
InInput put SandboxSandbox
Job Submission Job Submission ServiceService
Computing Computing ElementElement
1b
Job S
ub
mit
Event
Job S
ub
mi t
Event
2a
3a
4a
Job StatusJob Status
Ressource Ressource BrokerBroker
3b
4b
Site Information Site Information ProviderProvider
SitSitee
F. Hernandez 22
DataGRID au CC-IN2P3
Toute la plate-forme sous Linux est accessible depuis la grille BQS (le gestionnaire de batch) gère tous les jobs
Les jobs grille s'exécutant à Lyon peuvent accéder aux données de la même façon que les jobs conventionnels données dans HPSS/Xtage accessibles
La partie User Interface est installée sur toutes les machines Linux
Bonne intégration avec la plate-forme de production existante données (AFS, HPSS, Xtage, ...) calcul
F. Hernandez 23
DataGRID au CC-IN2P3 (suite)
Batch Scheduler BQS
Computing Element
Batch Workers
Storage Element
GlobusGatekeeper
HPSSHPSS
…….
……
XtageXtage
F. Hernandez 24
DataGRID au CC-IN2P3 (suite)
Gatekeeper Computing Element
F. Hernandez 25
DataGRID au CC-IN2P3 (suite)
F. Hernandez 26
DataGRID au CC-IN2P3 (suite)
Fourniture des services transversaux pour le projet
Mise en place et exploitation du repository central du logiciel pour tout le projet ligne de commande (local et remote) et interface web
Exploitation du serveur central de distribution du logiciel
Développement d'outils de vérification de la conformité aux règles du projet cibles des Makefile, nomenclature, numérotation des
versions
F. Hernandez 27
DataGRID au CC-IN2P3 (suite)
Développement d'outils pour la construction du logiciel faite toutes les nuits sur RedHat 6.2 RedHat 7.2 en cours de déploiement
Développement d'outils pour faciliter l'installation génération et publication de listes des RPMs
nécessaires pour installer un composant (UI, WN, CE, ...)
F. Hernandez 28
Applications
Atlas souhaite utiliser les outils de grille pour ses Data
Challenges DC1 (octobre 2002) sera fait pour une partie
substantielle sur la grille Atlas-EDG Task Force créée en août 2002 pour
évaluer la faisabilité d'utiliser des outils grille pour les DC aider l'expérience à adapter son logiciel à cette infrastructure
traitement de 5 datasets 2000 sur le testbed DataGRID + Karlsruhe continuer avec d'autres datasets si succès
input: événements générés sous la forme de fichiers ROOT
F. Hernandez 29
Applications (suite)
Atlas (suite) traitement: simulation avec le logiciel Atlas v3.2.1 pré-
installé sur les sites participants à partir d'une distribution commune installation faite par les administrateurs de site
output: événements simulés sous la forme de fichiers ZEBRA plus histogramme HBOOK et logs (stdout, stderr)
total: 9 GB input, 100 GB output, 2000 heures de CPU bilan partiel:
possibilité d'exécuter des tâches et de transférer des données avec une seule "connexion à la grille"
possibilité de repartir la charge sans se connecter explicitement sur chaque site
pilotage centralisé de la production rendu plus aisé
F. Hernandez 30
Applications (suite)
Atlas (suite) bilan partiel (suite)
infrastructure en développement instabilité interruptions de transferts des gros fichiers (> 1.3 GB) quelques jobs perdus par le système instabilité du système d'information
CMS production de 200K événements à partir de nov. 2002
sans Objectivity durée: 3 ou 4 semaines sites: CERN, Lyon, X, CNAF (Bologne), Padoue, RAL, IC ressources nécessaires: 100 workers, 300 GB disque
F. Hernandez 31
Applications (suite)
Babar EDG installé à SLAC, Imperial College et Lyon
possibilité de soumission de jobs sur ces sites travail actuellement sur l'implémentation de leur catalogue
de méta-données séparation d'un job en tâches qui seront exécutées là où se
trouvent les données évaluation de SRB comme catalogue local des données de
chaque site outil de soumission transparente des jobs sera mis à
disposition pour les beta-testeurs
F. Hernandez 32
Applications (suite)
LHCb des nouveaux outils de production en cours de déploiment
au CERN, Lyon, NIKHEF, CNAF (Bologne), RAL et 10 autres sites
tests de base génération de 500 événements stockage sur un Storage Element stockage des logs et histogrammes au CERN reconstruction avec stockage de la sortie dans CASTOR utilisation des données dans CASTOR pour l'analyse (hors
grid)
F. Hernandez 33
Applications (suite)
Rugbi mise en oeuvre d'une grille pour la bio-informatique:
fourniture des services pour l'analyse à grande échelle des structures des protéines
utilisateurs: les laboratoires académiques, les sociétés de biotechnologie, des PME du Biopôle Clermont-Limagne
partenaires: IN2P3, CS, IBCP, Univ. Blaise Pascal, Biopôle Clermont-Limagne
F. Hernandez 34
Applications (suite)
OpenPlast grille informatique pour la simulation de la mise en forme
des polymères utilisateurs: industriels de la plasturgie (Rhône-Alpes est
la première région de la plasturgie en France) et laboiratoires
partenaires: C-S, Ecole Supérieure de Plasturgie, IN2P3, Pôle Européen de Plasturgie
projet RNTL
F. Hernandez 35
Perspectives
"Mouvance grille" est dans ses débuts Travaux sur les grilles et les services web
commencent à converger OGSA: Open Grid Software Architecture évolution de Globus participation active de l'industrie définition et premières implémentations des interfaces et
comportements standards d'un service grille implémentation basée sur les services web (XML, SOAP,
UDDI, WSDL, ...) indépendance du langage nouvelles opportunités pour les fournisseurs de service
F. Hernandez 36
Conclusions
Emergence d'une nouvelle infrastructure sur laquelle la science et l'économie seront bâties
Grille est appelée à un succès plus grand encore que le web
Beaucoup de travail reste à faire pour que l'utilisation de cette infrastructure soit réellement facile
Des nouveaux services vont naître
F. Hernandez 37
Pour en savoir plus...
…sur le projet http://www.eu-datagrid.org
…sur le testbed http://marianne.in2p3.fr
…sur l'état d'avancement au CCIN2P3 http://ccgrid.in2p3.fr
…sur le logiciel DataGRID http://datagrid.in2p3.fr
…sur Globus http://www.globus.org
F. Hernandez 38
Questions
F. Hernandez 39
Exemples: soumission de job
Connexion à la grillegrid-proxy-init
Description du job JDL: langage de description des jobs Fichier HelloWorld.jdl
Executable = "/bin/echo";Arguments = "Hello World";StdOutput = "hello.out";StdError = "hello.err";OutputSandbox = {"hello.out","hello.err"};
F. Hernandez 40
Exemples: soumission de job (suite)
Soumissiondg-job-submit HelloWorld.jdl
Etat du jobdg-job-status <jobId>
Récupération de la sortiedg-job-get-output <jobId>
F. Hernandez 41
Exemples: transport de l'exécutable
Description du job
Executable = "MyExecutable";
Arguments = "1234 test";
StdOutput = "output";
StdError = "error";
InputSandbox = "/home/fabio/MyExecutable";
OutputSandbox = {"output","error"};
Requirements = Member(other.RunTimeEnvironment, "CC-IN2P3");