Architectures parallèles Source: Michael J. Quinn Parallel Programming in C with MPI and openMP 1.

Architectures Architectures parallèlesparallèles

Source: Michael J. Quinn Parallel Programming in C with MPI and openMP

PlanPlan

1. Réseaux d’intercommunication2. Ordinateurs vectoriels3. Multiprocesseurs4. Multi-ordinateurs5. Taxonomie de Flynn

1. Réseaux 1. Réseaux dd ’’intercommunicationintercommunicationUtilités

◦Connecter les processeurs à la mémoire partagée

◦Connecter les processeurs entre eux2 modes:

◦Partagé◦Avec commutateurs (switchs)

Comparaison des deux Comparaison des deux modesmodes

Partagé Commutateurs

Mode partagéMode partagéUn seul message à la foisLes messages sont diffusés à tous les

processeurs via un busChaque processeur “écoute” tous les

messagesL’arbitrage est décentraliséUne collision nécessite la rediffusion

du messageLimite le nombre de processeurs

Avec commutateursAvec commutateursPermet la communication point-

à-pointAvantages:

◦Permet l’envoi de plusieurs messages simultanément

◦Permet l’utilisation d’un plus grand nombre de processeurs

Topologies des réseaux Topologies des réseaux dd ’’intercommunicationintercommunication

Représentation sous forme de graphe◦Noeud = processeur ou

commutateur◦Arête = lien de communication

Deux types de topologies◦Directe◦Indirecte

Topologie directeTopologie directeUn commutateur pour chaque

processeurChaque commutateur est

connecté à:◦1 processeur◦Au moins un autre commutateur

En général, le nombre de processeurs est identique au nombre de commutateurs

Topologie indirecteTopologie indirecteLe nombre de commutateurs

peut être plus grand que le nombre de processeurs

Certains commutateurs ne sont connectés qu’à d’autres commutateurs.

Évaluation dÉvaluation d’’une topologieune topologie

Diamètre ◦ Distance maximale entre deux noeuds◦ Borne inférieure sur le temps de communication

Largeur de coupe◦ Nombre min d’arêtes à enlever pour diviser le

graphe en deux composantes connexes de même taille (à 1 neud près).

◦ Borne supérieure sur le nombre de messages pouvant être envoyés simultanément.

Degré = Nombre d’arêtes adjacentes à un noeud

Longueur des arêtes: Une longueur constante permet plus

facilement d’augmenter le nombre de processeurs.

Grille 2-DGrille 2-DTopologie directeLes commutateurs sont organisés

sous la forme d’une grille 2-DCommunication permise

seulement entre les noeuds voisins

Tore: les extrémités sont reliées

Grille 2-DGrille 2-D Tore Tore

Les cercles représentent des commutateurs et les carré des processeurs.

Évaluation des grilles 2-DÉvaluation des grilles 2-DDiamètre: (n1/2)Largeur de coupe: (n1/2)Degré: 4Longueur d’arêtes constante

Arbre binaireArbre binaireTopologie indirecte n = 2d processeurs 2n-1 commutateurs

Évaluation dÉvaluation d’’un arbre un arbre binairebinaireDiamètre: 2 log n

Largeur de coupe: 1

Degré: 3

La longueur d’arête n’est pas constante

Hyper-arbreHyper-arbreTopologie indirecteFaible diamètrePlus grande largeur de coupe qu’un

arbreDe face, il apparaît comme un arbre

de degré k et profondeur dDe côté, il apparaît comme un arbre

binaire renversé de hauteur d

Hyper-arbreHyper-arbre

Évaluation des hyper-Évaluation des hyper-arbrearbreDiamètre: log n

Largeur de coupe: n / 2

Degré: 6

Longueur d’arêtes non constante

Réseau butterflyRéseau butterflyTopologie indirecten = 2d processeurs connectés à l’aide de

n(log n + 1) commutateurs.

Routage sur un réseau Routage sur un réseau butterflybutterfly

ÉvaluationÉvaluationDiamètre: log n

Degré: 4

HypercubeHypercubeTopologie directeLe nombre de noeuds est un

puissance de 2Adresses: 0, 1, …, 2k-1Le noeud i est connecté au noeud k si

et seulement si leurs adresses ne diffèrent que d’un seul bit.

Réseau hypercube de 16 Réseau hypercube de 16 processeursprocesseurs

ÉvaluationÉvaluationDiamètre: log n

Degré: log n

La longueur des arêtes n’est pas constante

Réseau shuffle-exchangeRéseau shuffle-exchangeTopologie directeLe nombre de noeuds est une

puissance de 2Adresses: 0, 1, …, 2k-1Deux arcs sortent de chaque

noeud i◦(i,k): où k est la rotation à gauche des

bits de i◦(i,j): où i et j ne diffèrent qu’au bit le

moins significatif25

Illustration du shuffle-Illustration du shuffle-exchangeexchange

0 1 2 3 4 5 6 7

Adressage du shuffle-Adressage du shuffle-exchangeexchange

Évaluation du shuffle-Évaluation du shuffle-exchangeexchangeDiamètre: 2log n - 1

Largeur de coupe: n / log n

Degré: 2

Comparaison des réseauxComparaison des réseauxTous ont un diamètre

logarithmique sauf la grille 2-DHyper-arbre, butterfly et

hypercube ont une largeur de coupe n / 2

Tous ont un degré constant sauf l’hypercube

Seul la grille 2-D a une longueur d’arête constante.

2. Ordinateurs 2. Ordinateurs vectorielsvectorielsInclut des opérations sur les vecteurs en

plus des opérations sur les scalairesDeux types d’implémentations:

◦Pipeline: Les vecteur sont déplacés de la mémoire vers le processeurs en un flux de données traités en pipeline- CRAY-I, II, Cyber 205

◦Réseau de processeurs: Un ordinateur standard contient plusieurs processeurs identiques et synchronisés (ex. GPU)

Réseau de processeursRéseau de processeurs

Réseau de processeursRéseau de processeursOrdinateur frontal

◦ Programme◦ Données manipulées séquentiellement

Réseau de processeurs◦ Mémoires locales◦ Données manipulées en parallèle

L’ordinateur frontal diffuse les instructions aux processeurs du réseau

Tous les processeurs du réseau exécutent la même instruction

PerformancePerformanceQuantité de travail par unité de

temps◦Ex. Nombre d’opérations par

secondeLa performance dépend de l’utilisation faite des processeurs.

La performance est au maximum lorsque les processeurs sont utilisés à 100%

Exemple 1Exemple 11024 processeursChacun additionne un couple d’entiers en 1 sec

On veut additionner deux vecteurs de1024-elements (un par processeur)

Exemple 2Exemple 2512 processeursChacun peut additionner deux

entiers en 1 secOn additionne deux vecteurs de

600 éléments.

Activer et désactiver un Activer et désactiver un processeurprocesseur

Si tous les processeurs exécute la même instruction simultanément, comment traiter les instruction conditionnelles???

Chaque processeur possède un bit de masquage lui permettant de ne pas exécuter la prochaine instruction.

if (T[i]!=0) then T[i]=1 else if (T[i]!=0) then T[i]=1 else T[i]=-1T[i]=-1

Désavantages des ordinateurs Désavantages des ordinateurs vectoriels.vectoriels.N’exploite que le parallélisme de

donnéesLa performance décroit en présence d’instructions conditionnelles

S’adapte mal à la présence de plusieurs usagers

Nécessite une bande passante très grande

Le rapport performance/coût n’est pas aussi bon que celui des processeurs standards

3. Multiprocesseurs3. MultiprocesseursPlusieurs processeurs utilisant

une mémoire communeMême espace d’adressageÉvitent trois problèmes des

ordinateurs vectoriels:◦Peuvent être construits avec des

processeurs standards◦Supportent plusieurs usagers◦Aucun problème avec les

instructions conditionelles

MultiprocesseursMultiprocesseurs

Deux types de multiprocesseurs:

◦Mémoire centralisées

◦Mémoire distribuées

Multiprocesseurs Multiprocesseurs centraliséscentralisésExtension directe des monoprocesseursPlusieurs processeurs conectés à un

même busTous les processeurs partagent une

mémoire communeLe temps d’accès à la mémoire est

identique pour tous les processeurs◦Uniform memory access (UMA)◦Symmetrical multiprocessor (SMP)

Chaque processeur possède sa propre mémoire cache

Multiprocesseurs Multiprocesseurs centraliséscentralisés

Données privées et Données privées et partagéespartagéesDonnées privées: Accessible à

un seul processeurDonnées partagées: Accessible à

tous les processeursLa communication entre les

processeurs se fait à l’aide des données partagées.

Problèmes liés aux variables Problèmes liés aux variables partagéespartagéesCohérence des caches

◦La présence de caches réduit les problèmes de bande passante

◦Comment s’assurer que différents processeurs possèdent la même valeur pour une variable partagée?

Synchronisation◦Exclusion mutuelle◦Barrière

Cohérence des cachesCohérence des caches

Memory

CPU A CPU B

Memory

CPU A CPU B

Memory

CPU A CPU B

Memory

Protocole dProtocole d’’invalidation en invalidation en écritureécriture

CPU A CPU B

7 7 Chaque cache possède un moniteur de bus

CPU A CPU B

Intention de modifier X

CPU A CPU B

Invalidation de X dans le cache de A

CPU A CPU B

Multiprocesseurs Multiprocesseurs distribuésdistribuésLa mémoire est distribuée entre

les processeursDiminue la bande passante ainsi

que le temps moyen d’accès à la mémoire.

Permet d’utiliser un plus grand nombre de processeurs

Non-uniform memory access (NUMA)

Multiprocesseurs Multiprocesseurs distribuésdistribués

Cohérence de la mémoire Cohérence de la mémoire cachecacheImplémentation plus difficile que

pour les multiprocesseurs à mémoire partagées.

◦Pas de bus unique à monitorer

◦Méthode la plus utilisée: protocole à répertoire (Directory-based protocol)

Protocole à répertoireProtocole à répertoireUn répertoire contient l’information

concernant les blocs de mémoire pouvant être mis en cache

Le répertoire est distribuéUne entrée dans le répertoire pour

chaque bloc de mémoire Chaque entrée possède:

◦ Status de partage◦ Liste des processeurs possédant une copie

du bloc

Status de partageStatus de partagePas en cache

◦Aucun processeur n’a mis le bloc en cache

Partagé◦Dans le cache d’un ou plusieurs

processeurs◦En lecture seulement

Exclusif◦Dans le cache d’un seule processeur◦Le bloc a été modifié◦La copie en mémoire n’est plus valide

Protocole avec répertoireProtocole avec répertoire

Interconnection Network

Architectures parallèles Source: Michael J. Quinn Parallel Programming in C with MPI and openMP 1.

Documents

Transcript of Architectures parallèles Source: Michael J. Quinn Parallel Programming in C with MPI and openMP 1.

Introduction to OpenMP - KFUPMhpc.kfupm.edu.sa/Documentation/OpenMP.pdf · Introduction to OpenMP • Introduction • OpenMP basics • OpenMP directives, clauses, and ... between

OpenMP API 5.0 Page 1 OpenMP 5.0 API Syntax Reference Guide€¦ · OpenMP API 5.0 Page 1 OpenMP 5.0 API Syntax Reference Guide ® Directives and Constructs An OpenMP executable directive

Shared Memory Parallelism - OpenMP Sathish Vadhiyar Credits/Sources: OpenMP C/C++ standard (openmp.org) OpenMP tutorial (.

CODEURS ABSOLUS PARALLÈLES ET PARALLÈLES PROGRAMMABLES

Présents Parallèles

OpenMP · 2011-07-05 · OpenMP ... pc ?

C66x KeyStone Training OpenMP: An Overview. Motivation: The Need The OpenMP Solution OpenMP Features OpenMP Implementation Getting Started with.

BD parallèles et réparties

Лекция 6 - mkurnosov.net · OpenMP 2.5 (2005), OpenMP 3.0 (2008), OpenMP 3.1 (2011), OpenMP 4.0 (2013) Требуется поддержка со стороны компилятора

Parallel Programming with MPI and OpenMP Michael J. Quinn.

Copyright © The McGraw-Hill Companies, Inc. Permission required for reproduction or display. Parallel Programming in C with MPI and OpenMP Michael J. Quinn.

The OpenMP API for Multithreaded Programming SC'05 OpenMP ...

HPC1 OpenMP E. Bruce Pitman October, 2002. HPC1 Outline What is OpenMP Multi-threading How to use OpenMP Limitations OpenMP + MPI References.

Introduction to OpenMP. OpenMP Introduction Credits: allans/cs260/lectures/OpenMP.ppt douglas/Classes/cs521-s02/...openmp/MPI-OpenMP.ppt.

Parallel Programming with OpenMP part 1 – OpenMP v2.5

Les vies parallèles - Numilog

Parallel Programming in C with MPI and OpenMP Michael J. Quinn.

Introduction to OpenMP Introduction OpenMP basics OpenMP directives, clauses, and library routines.

Clavettes parallèles Cannelures à flancs parallèles ...58consmeca.free.fr/Cours 2a Pdf/Dimensionnement.pdf · Clavettes parallèles Cannelures à flancs parallèles Dimensionnement

OK KO Arts parallèles