Verteilte Systeme Dozent: Clemens Düpmeier
description
Transcript of Verteilte Systeme Dozent: Clemens Düpmeier
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Verteilte SystemeDozent: Clemens Düpmeier
http://www.iai.kit.edu/~clemens.duepmeier/vs-vorlesung.html
Foliensatz 1: Einführung,
Grundlegende Begriffe, Systemmodelle
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Grundlegende Definition(en)
Fokussierung der Vorlesung
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Netzwerke und Verteilte Systeme
• Netzwerke sind nicht im Fokus dieser Vorlesung!
• Da vorher Vorlesung über Kommunikationstechnologien
ABER
• Man benötigt ein Computernetzwerk, um ein verteiltes System zu realisieren.
• Was also ist ein verteiltes System?
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Was ist ein verteiltes System ?Eine praxisorientierte Beschreibung:
Ein verteiltes System
• besteht aus einer Menge autonomer Computer
• die durch ein Computernetzwerk miteinander verbunden sind und
• mit einer Software zur Koordination ausgestattet sind.
Verteiltes System(Sicht eines Benutzers)
Verteiltes System(Sicht eines Benutzers)
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Was ist ein verteiltes System ?• Definition: Verteiltes System (nach Leslie Lamport)
Ein verteiltes System ist ein System, mit dem ich nicht arbeiten kann, weil irgendein Rechner abgestürzt ist, von dem ich nicht einmal weiß,
daß es ihn überhaupt gibt.
– oft die Realität
– wird aber besser (hoffentlich auch durch diese Vorlesung)
• Definition: Verteiltes System (nach Andrew S. Tanenbaum)
Ein verteiltes System ist eine Kollektion unabhängiger Computer, die den Benutzern als ein Einzelcomputer erscheinen.
– impliziert, daß die Computer miteinander verbunden sind und
– die Ressourcen wie Hardware, Software und Daten gemeinsam benutzt werden.
– Es herrscht eine einheitliche Sicht auf das Gesamtsystem vor.
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Was ist ein verteiltes System ?
Eine allgemeinere Beschreibung:
• Ein verteiltes System ist ein System, in dem
– Hard-und Softwarekomponenten,
– die sich auf miteinander vernetzten Computern befinden,
– miteinander kommunizieren und ihre Aktionen koordinieren,
– indem sie Nachrichten austauschen.
• Eine verteilte Anwendung ist eine Anwendung, die ein verteiltes System zur Lösung eines Anwendungsproblems nutzt. Sie besteht aus verschiedenen Komponenten, die mit den Komponenten des VS sowie den Anwendern kommuniziert.
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Warum sind Verteilte Systeme eigenes Thema•Viele gleichzeitige („parallele“) Aktivitäten•Exakte globale Zeit nicht erfahrbar/vorhanden•Keine konsistente Sicht des Gesamtzustandes•Kooperation durch Kommunikation•Ursache und Wirkung zeitlich und räumlich getrennt
>Räumliche Separation, autonome Komponenten >Heterogenität
>Dynamik, Offenheit
>Komplexität
>Sicherheit
+Probleme sequentieller Systeme +Nebenläufigkeit
+Nichtdeterminismus
+Zustandsverteilung
–Synchronisation schwieriger –Programmierung komplexer
–Testen aufwendiger
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Fokus der Vorlesung
• Der Fokus der Vorlesung liegt auf "Verteilte Anwendungen" nicht auf Hardware
• Insbesondere auf Verteilten Business Anwendungen
– Software-Architekturen
– Notwendige Eigenschaften solcher Systeme
– Kommunikation zwischen Komponenten Verteilter
Anwendungen
– Hilfsmittel, z.B. Middleware + Application Server
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Beispiel für Verteilte Business-Anwendung
Quelle: Prof. Thai
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Jede Menge Daten + Datenaustausch
Quelle: Prof. Thai
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Jede Menge Anforderungen an Eigenschaften
Quelle: Prof. Thai
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Wichtige Eigenschaften
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Wichtige Eigenschaften
• Nebenläufigkeit
• Kontrollierte, gemeinsame Ressourcennutzung
• Skalierbarkeit
• Sicherheit
• Fehlertoleranz
• Transparenz
• Offenheit
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Nebenläufigkeit (Concurrency)• Gesamtsystem besteht aus Softwarekomponenten, die auf
verschiedenen Rechnersystemen laufen
– Dabei können Aktivitäten im Gesamtsystem sowohl auf einem Rechner,
– parallel als auch parallel auf verschiedenen Rechnern ablaufen
• Nebenläufigkeit kann es z.B. bei
– Clients (Anwendungsprogramme, z.B. Videokonferenz) und
– Servern (Zugriff auf Ressourcen, z.B. Datei) geben.
• Wichtiges Aspekte:
– Synchronisation der Aktivitäten, z.B. um Daten konsistent zu halten.
– Verbesserung des Durchsatzes und Performance durch Paralellisierung
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Gemeinsame Ressourcennutzung• Hardware: Drucker, Festplatten, Scanner, etc.
• Daten: Datenbankobjekte, Dateien, etc.
• Client-Server Model: Server verwaltet Ressourcen, die Clients nutzen
• Verteilte Objekte: Server bietet Dienste über Verteilte Objekte, die Clients gemeinsam nutzen
• Verteilte Services (komplexer Dienstleistungen, die über Netz aufrufbar sind)
– z.B. Bezahldienste, Flugbuchung, etc.
• Problematik:
– Regelung nebenläufiger Zugriffe
– Fragen der Konsistenz und der Fehlertoleranz.
– Fragen der Skalierbarkeit
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Skalierbarkeit• Ein Softwaresystem ist skalierbar, wenn durch
Hinzufügen weiterer Hardware
– der Durchsatz des Systems
– oder die Anzahl paralleler Nutzeranforderungen erhöht
werden kann
• Setzt voraus, dass das System so entworfen ist, dass Funktionalitäten
– parallel auf verschiedenen Rechnern (CPU's) ausgeführt
werden können
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Verteilung des DNS Namenraums
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Sicherheit
• Vertraulichkeit: Daten können nur von dem gewünschten Empfänger gelesen werden.
• Integrität: Die Daten wurden während der Übertragung nicht verändert.
• Authentizität: Die Daten wurden tatsächlich von der Person gesendet, die behauptet, der Sender zu sein.
• Verfügbarkeit: Ein Dienst darf durch eine (Denial of Service) Attacke nicht ausser Kraft gesetzt werden.
• Sicherheit für mobilen Code: Mobiler Code darf die lokale Ressource nicht beschädigen und umgekehrt.
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Fehlertoleranz
• Fehler erkennen: z.B. durch Prüfsummen. Nicht erkennbar ist z.B. ein Absturz eines entfernten Servers
• Fehler maskieren: Erkannte Fehler verbergen oder abschwächen, z.B. Wiederholung von Nachrichten
• Fehler tolerieren: z.B. durch Redundanz, Timeout
• Wiederherstellung nach Fehlern: z.B. Rückkehr in einen sicheren Zustand, wenn ein Fehler entdeckt wird (Software Recovery).
• Redundanz: Fehlertoleranz durch redundante Komponenten, z.B. Standby-Maschinen, doppelte Komponenten, doppelte Dienste.
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
TransparenzTransparenz wird definiert als das Verbergen der Separation der einzelnen
Komponenten in einem verteilten System vor dem Benutzer und dem Applikationsprogrammierer, so dass das System als Ganzes wahrgenommen wird, und nicht als Sammlung voneinander unabhängiger Komponenten.
ISO (International Standards Organization) und ANSA (Advanced Network Systems Architecture) identifizieren acht Formen der Transparenz:
• Zugriffstransparenz ermöglicht den Zugriff auf lokale und entfernte Ressourcen unter Verwendung identischer Operationen.
• Positionstransparenz (Ortstransparenz) erlaubt den Zugriff auf die Ressourcen, ohne dass man ihre Position/ihren Ort kennen muss.
• Nebenläufigkeitstransparenz erlaubt, dass mehrere Prozesse gleichzeitig mit denselben gemeinsam genutzten Ressourcen arbeiten, ohne sich gegenseitig zu stören.
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Transparenz• Replikationstransparenz erlaubt, dass mehrere Instanzen von Ressourcen
verwendet werden, um die Zuverlässigkeit und die Leistung zu verbessern, ohne dass die Benutzer oder Applikationsprogrammierer wissen, dass Repliken verwendet werden.
• Fehlertransparenz erlaubt das Verbergen von Fehlern, so dass Benutzer und Applikationsprogrammierer ihre Aufgaben erledigen können, auch wenn Hardware- oder Softwarekomponenten ausgefallen sind.
• Mobilitätstransparenz erlaubt das Verschieben von Ressourcen und Clients innerhalb eines Systems, ohne dass die Arbeit von Benutzern oder Programmen dadurch beeinträchtigt wird.
• Leistungstransparenz erlaubt, dass das System neu konfiguriert wird, um die Leistung zu verbessern, wenn die Last variiert.
• Skalierungstransparenz erlaubt, dass sich System und Applikationen vergrößern, ohne dass die Systemstruktur oder die Applikationsalgorithmen geändert werden müssen.
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Offenheit
• Offenheit bzgl. Nutzung durch andere Systeme
– Verwendung standardisierter Schnittstellen
• also bei Kommunikation,
Datenformattechnologien, etc.
• Bzgl. Nutzung anderer Systeme, Sprachen, Betriebssystemen, ...
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Architektur und Systemmodelle
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Systemmodelle• Beschreibung der allgemeinen Eigenschaften und des Designs eines Systems
• Das Modell sollte abdecken:
– Die wichtigsten Komponenten des Systems
– Die Art ihrer Interaktion
– Wie deren individuelles und kollektives Verhalten beeinflusst werden kann
• Ein Architekturmodell
– vereinfacht und abstrahiert zunächst die Funktionen der individuellen Komponenten
eines verteilten Systems, um dann
– die Verteilung der Komponenten auf ein Netzwerk von Computern und
– die Beziehung der Komponenten (Rolle in der Kommunikation mit anderen,
Kommunikationsmuster) untereinander zu beschreiben.
• Weitere Modelle: Interaktionsmodell, Fehlermodell, Sicherheitsmodell
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Verschiedene Blickwinkel auf verteilter SystemeRechnernetz mitRechnerknoten
Objekte / Komponenten Algorithmen u.Protokolle
P1
P2
P3
Physischverteilt Logisch
verteilt
ZeitZeit
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Softwarearchitektur
• definiert also Softwarekomponenten des Systems
– ihre wesentlichen Eigenschaften
– und die Beziehungen untereinander
– und damit die "logische" Verteilung des Systems
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Komponenten und Abhängigkeiten• Jede Komponente definiert funktionalen Teil des
Systems; Pfeile definieren Abhängigkeiten
• Je mehr Komponenten, um so modularer das System
– Komponenten-basiertes Design und
sauberere Trennung von Funktionalitäten führt
zu besserer Wiederverwendbarkeit
– und mehr Möglichkeiten für Verteilung und
Parallelität• aber höherer Kommunikationsaufwand und evtl.
sinkende Performance
• Hauptarchitekturziel: Ausgewogenheit zwischen Flexibiliät und Performance
Quelle: Gustavo Alonso
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Weitere Anforderungen (siehe Eigenschaften)• Leistungsprobleme: durch beschränkte Verarbeitungs- und
Kommunikationskapazitäten:
– Antwortzeiten: schnelle und konsistente Antwortzeiten werden benötigt
– Durchsatz: Verarbeitungs- und Datenübertragungsgeschwindigkeit
– Ausgleich von Rechenauslastung: Nebenläufige Ausführung ohne Konkurrenz um die
Ressourcen
• Dienstgüte (Quality of Service): Zuverlässigkeit, Sicherheit, Leistung (inkl. Rechtzeitigkeitsgarantie), Anpassbarkeit
• Caching und Replikation: Cache-Konsistenz-Protokoll notwendig
• Zuverlässigkeitsprobleme:
– Fehlertoleranz: Korrekt arbeiten trotz Fehler!
– Sicherheit: Erzeugen von Vertrauen durch Schutz vor Angriffen!
– Korrektheit: aktuelle Forschung
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Softwareschichten• Die Komponenten einer
Softwarearchitektur können in logische Schichten (Layer) angeordnet werden
– z.B. in 3-Schichten• Schicht mit Komponenten zur
Erzeugung der GUI und
Kommunikation mit Nutzer
• Schicht mit Komponenten mit
Businesslogik
• Schicht mit Komponenten zum
Daten-/Ressourcemanagement
und Zugriff
Daten-management
Businessebene
Präsentation
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Auch in vier oder fünf SchichtenTerminals, Windows Geräteabhängige Darstellung
Geräteunabhängige Steuerung undKoordinierung des Dialogs mit dem Anwender
Anwendungsspezifische Steuerungs-und Verwaltungsfunktionen, Teile der Business Logik
Datenselektion und -manipulationE-Mail, Drucken, Mailing
Verbindung zum DBMSVerbindung zum DBMS
Präsentation
Datenzugriff
Dialogsteuerung
Anwendungslogik
Dienste und Datenlogik
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
0
10
20
30
40
50
60
70
80
90
1. Qrtl. 2. Qrtl. 3. Qrtl.
020406080
100
1.Qrtl.
2.Qrtl.
3.Qrtl.
Präsentation
Tiers (Verteilung von Schichten auf Rechner)
Kontrolle
Funktion
Modell
1. Qrtl.
2. Qrtl.
3. Qrtl.
Ost
20,427,4
90W
est30,6
38,634,6
Nord
45,946,9
45
Wie sollen Funktionalitäten (z.B. als Schichten)auf verschiedene Rechner verteilt werden?
Wie sollen Funktionalitäten (z.B. als Schichten)auf verschiedene Rechner verteilt werden?
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
1-Schichtverteilung (1-Tier)
• Alle Softwarelayer befinden sich auf einem Rechner– Management der Ressourcen erfolgt zentral– Software selbst kann hoch-optimiert werden
(Trennung zwischen Schichten hier nicht zwingend notwendig)
• Nutzer arbeiten mit einer monolithischen Anwendung
• Mehrere Rechner mit einer solchen über (grafische) Terminals
• Typisch bei Mainframeanwendungen
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
2-Schichtenverteilung (2-Tier)
• Typischer Weise Trennung von Präsentation und dem Rest (Business- und Datenlogik)– Client enthält Präsentation mit GUI und behandelt Interaktion mit
Nutzer– Server kapselt Business- und Datenlogik
• Clients sind (weitgehend) unabhängig voneinander– Es kann auch verschiedene Clients für verschiedene
(Teil)funktionalitäten geben
• Ressourcenmanagement sieht nur eine Businesslogik als Client– hier lässt sich der Zugriff daher gut optimieren
• Erlaubt die Nutzung komplexerer GUI's mit intensiverer CPU-Nutzung, da Clients verteilt sind
• Definierten Notwendigkeit zur Bereitstellung von universellen Kommunikationsschnittstellen zwischen Client und Server
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Thin Client / Thick Client
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Client/Server Modelle
Prozeß:Legende:
Computer:
Server
Client
Client
Auftrag
Antwort
Initiierender Prozeß•stellt Anfragen•erteilt Aufträge
Reagierender Prozeß•bearbeitet Anfragen•erfüllt Aufträge
ServerAuftrag
Antwort
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Mehrfache Server
Server
Server
Server
Dienst
Client
Client
Partitition oderReplikation vonDiensten
Beispiel Partition:WWW
Beispiel Partitionund Replikation: DNS
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Proxy-Server und Cache
Client
Proxy
Web
server
Web
server
serverClient
Proxy-Server: Gemeinsamer CacheZweck von Proxy-Servern: erhöhte Leistung und Verfügbarkeit
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Koordinierungs-
Applikation
code
Koordinierungs-
Applikation
codeKoordinierungs-
Applikation
code
Gleichrangige Prozesse (P2P)
Oft bessere Leistung als Client-Servermit vielen ähnlichen Prozessen und vorwiegend lokaler Kommunikation.Beispiel: Whiteboard
Oft bessere Leistung als Client-Servermit vielen ähnlichen Prozessen und vorwiegend lokaler Kommunikation.Beispiel: Whiteboard
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Nachteile der 2-Schichtenverteilung
• Ein Server muss in der Regel alle Clients bedienen
• oder ich hab mehrere Server, die bzgl. dem Ressourcenzugriff nicht synchronisiert sind
– denn es gibt ja keine gemeinsam genutzte Business-Logik (wo diese
stattfinden kann)
– Beim Zugriff auf Server mit verschiedenen Funktionalitäten ist der
Client der Integrator => Fat Clients
• Der Client muss nun wissen, wo was ist, wie er darauf zugreifen kann, wie
Konsistenz garantiert werden kann, etc.
• Das ist in nahezu allen Aspekten (Software Design, Portabilität, Code Rebenutzung, Performanz) ineffizient
• Lässt sich nur durch Erweiterung der Schichtverteilung lösen
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
3-Schichtenverteilung (und mehr)• Bei der 3-Schichtenverteilung im klassischen Sinne sind Präsentations-,
Business- und Datenlayer getrennt
– voll modularisiertes System
– Verschiedene Layer können über Netzwerktechnologien miteinander
kommunizieren
• Die Layer werden dabei oft auch auf verschiedene Rechnersysteme verteilt• Middleware wird als universelle Kommunikations-"Brücke" zwischen den
einzelnen Schichten eingesetzt
– trennt Anwendungslogik zu einem gewissen Teil von der Kommunikationslogik
– erhöht die Interoperabilität von Softwaresystemen über Rechnergrenzen
hinweg
– Kann verschiedene Hilfsdienste bereitstellen, um wichtige Eigenschaften des
Verteilten Systems zu garantieren
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Architektur mit 3-Schichtenverteilung
Präsentationsschicht
Applikationslogik
Datenlogik Datenlogik
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Applikationen, Dienste
Betriebssystem
Middleware
Computer- und Netzwerkhardware
Middleware abstrahiert vom Betriebssystem
Middleware (Verteilungsplattform) :Transparenz der •Heterogenität existierender Hardware und Betriebssysteme•Verteilung
Middleware (Verteilungsplattform) :Transparenz der •Heterogenität existierender Hardware und Betriebssysteme•Verteilung
Plattform: „unterste“ Hardware- und Softwareschichten (Low-Level)werden häufig als Plattform bezeichnet.Beispiele: Intel x86/{Windows|Linux}, PowerPC/MacOS, Solaris
Plattform: „unterste“ Hardware- und Softwareschichten (Low-Level)werden häufig als Plattform bezeichnet.Beispiele: Intel x86/{Windows|Linux}, PowerPC/MacOS, Solaris
•Plattformunabhängig•Middlewareabhängig
•Plattformunabhängig•Middlewareabhängig
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Middleware als Zwischenschicht zur Kommunikation zwischen Layer
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Middleware als Integrationshilfsmittel
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
N-Schichtenverteilung
• Entweder durch Hinzufügen weiterer Schichten
– z.B. bei Web-Business-Applikationen durch
zusätzlichen Web-Tier
• Durch Verknüpfungen mehrer Mehrschicht-Anwendungen über zusätzliche Integrationslayer
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
4-Schichten-Architektur mit Web-Layer
• Für solche Architekturen setzt man häufig Komponenten-oriente Frameworks ein, die auf Application Server basieren
– Komplette Frameworks
zum Schreiben von
Mehrschicht-
Anwendungen
• .NET Framework
• Java JEE
Forschungszentrum KarlsruheTechnik und Umwelt
Clemens Düpmeier, 21.04.23
Gliederung der weiteren Vorlesung
• Kommunikation und Parallelität – Grundlegende Begriffe und Technologien
– Client-Server Kommunikation
– Nebenläufigkeit (Parallelität), Synchronisationsprobleme, Verteilte
Transaktionen
• Verteilte Objektkommunikation und Namensdienste• Middleware, Verteilte Softwarekomponenten und Application Server
– Verteilte Komponenten und ihre Kommunikation
– Kommunikation über Nachrichten (MOM – Message Oriented Middleware)
• Die Rolle des Web in Verteilten Business-Applikationen
– Web als Präsentationsschicht
– Web als Servicekommunikationsschicht
– SOA (Service Oriented Architecture)