Reinforcement Learning
Das „Reinforcement Learning“-Problem
Alexander Schmid
Institut für Informatik - 2 -
Vortragsgliederung
1. Einleitung
2. Das Labyrinthbeispiel
3. Der Agent und die Umgebung
4. Die Policy
5. Rewards und Returns
6. Markov-Eigenschaft und MDP
7. Value Functions
8. Fazit und Ausblick
9. Literaturreferenzen
Institut für Informatik - 3 -
1. Einleitung – Was ist Reinforcement Learning
Reinforcement Learning ist eine spezielle Art von Lernverfahren
„maschinelle Lernverfahren“:
Ein Künstliches System lernt (z.b. ein Roboter oder eine Maschine)
„überwachtes Lernen“ Ein „Lehrer“ (übergibt die Lehrvorgaben) Künstliches System orientiert sich an Lehrvorgaben
Reinforcement Learning Es gibt keinen Lehrer Der Ursprung liegt in der Natur
Institut für Informatik - 4 -
1. Einleitung – Was ist Reinforcement Learning
Beispiel Kleinkind
Offensichtlich ist kein Lehrer notwendig
Das Kind kann seine Umgebung verändern
Das Kind kann die Veränderungen wahrnehmen (Ursache und Wirkung)
Erfahrungen helfen dem Kind Ziele zu erreichen
Merkmale des Reinforcement Learnings
Interaktion mit der Umgebung
Sammeln und Anwenden von Erfahrungen
„trial-and-error“-Prinzip
Belohnungen beim Erreichen von Zielen
Institut für Informatik - 5 -
1. Einleitung – Das „Reinforcement Learning“-Problem
Ziel: Formales Modell für Reinforcement Learning definieren
1. Ansatz
Idee: Verallgemeinerung von konkreten Anwendungen
Ansatz nicht brauchbar, da zu viele unterschiedliche Anwendungen
Beispiel: Fertigungsroboter und Sortiermaschine
2. Ansatz
Idee: Beschreibung des Problems anstelle der Lösung
Genauer: Beschreibung der einzelnen Elemente
Beispiele unter diesem Ansatz mit einander vereinbar
Institut für Informatik - 6 -
2. Das Labyrinthbeispiel
Ein Labyrinth und ein Roboter
Lernziel: Roboter soll so schnell wie möglich zum Ausgang finden
Eingang
Ausgang
Ausgang
Roboter
Institut für Informatik - 7 -
3. Der Agent und die Umgebung
Das künstliche System wir formal als „ der Agent“ bezeichnet
Der Agent…
...ist immer der Teil der lernt
…muss zwingend dynamisch bzw. veränderbar sein
...muss mit seiner Umgebung interagieren können
Die Umgebung…
…ist das Gegenstück zum Agenten
…ist statisch (nicht veränderbar)
…beinhaltet alles, was nicht explizit zum Agenten gehört
Institut für Informatik - 8 -
3. Der Agent und die Umgebung
Aktionen…
…können vom Agenten ausgeführt werden
…low-level- oder high-level-Entscheidungen (Beispiel Roboterarm)
Zustände…
…beschreiben den Momentanzustand der Umgebung
…können komplizierte Formen annehmen (Beispiel: Objekterkennung)
Zustände und Aktionen liegen kodiert vor
Institut für Informatik - 9 -
3. Der Agent und die Umgebung (Interaktion)
Agent führt Aktion aus (Zeitpunkt t)
Die Umgebung ändert ihren Zustand (Konsequenz aus Aktion)
Neuer Zeitschritt beginnt
Agent bekommt (neuen) Zustand
Agent bekommt Reward (Belohnung)
ta
Agent
Umgebung
Aktion
1ts
Zustand
ts1tr
Reward
tr
Institut für Informatik - 10 -
3. Der Agent und die Umgebung
Agent und Umgebung am Labyrinthbeispiel
Die Umgebung ist das Labyrinth (inklusive Ein- und Ausgängen)
Der Agent ist der Roboter (bzw. sein Rechenwerk)
Agent (Roboter)
Institut für Informatik - 11 -
3. Der Agent und die Umgebung
Aktionen und Zustände am Labyrinthbeispiel
Institut für Informatik - 12 -
4. Die Policy
Die Policy…
…ist das Herzstück des Agenten (trifft die Entscheidungen)
…ist eine Abbildung von einem Zustand auf eine Aktion
…muss veränderbar sein (Lernvorgang)
…wird mit πt notiert (Definition)
Das „Exploitation-Exploration-Problem“
Erinnerung: „trial-and-error“-Prinzip
„greedy Policy“ (gierige Policy)
Institut für Informatik - 13 -
4. Die Policy
„Exploitation-Exploration-Problem“ am Labyrinthbeispiel
Institut für Informatik - 14 -
4. Die Policy
Lösung des „Exploitation-Exploration-Problems“
Einbauen von Exploration-Entscheidungen
Verfeinerung des Policy-Begriffs (Wahrscheinlichkeitsverteilung)
Formal: πt(s,a)
Beispiel Zustandsgraph
a b c
s
1.0),(
4.0),(
5.0),(
cs
bs
as
t
t
t
x y z
Institut für Informatik - 15 -
5. Rewards und Returns
Formulierung eines Ziels für den Agenten
Definition: rt
Rewards liegen in der Umgebung
Modellierung eines komplexen Ziels mit Hilfe von Rewards
Beispiel: Roboter lernt laufen
Rewards können auch falsch gesetzt werden
Beispiel: Schach
Institut für Informatik - 16 -
5. Rewards und Returns
Rewards im Labyrinthbeispiel
-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1
-1-1 -1-1
-1-1 -1-1
-1-1
-1-1
-1-1
-1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 80
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
80
Institut für Informatik - 17 -
5. Rewards und Returns
Returns sind Summen von Rewards
Definition:
Problem bei kontinuierlichen Prozessen
Lösung: Abschwächen der Summenglieder durch Faktor
Definition:
mit 0 < γ < 1
Tttt rrrR 21
0)1(3
221
kkt
ktttt rrrrR
Institut für Informatik - 18 -
5. Rewards und Returns
Returns am Labyrinthbeispiel
-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1
-1-1 -1-1
-1-1 -1-1
-1-1
-1-1
-1-1
-1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1
-1 -1
-1 -1
-1 -1
-1
-1
-1 -1
-1 -1
-1 -1
-1 80
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
80
-1
-1
-1-1-1-1-1-1-1-1-1+80 = 71
-1-1-1-1+80 = 76
Institut für Informatik - 19 -
6. Markov-Eigenschaft und MDP
Informationsgehalt der Zustände
Beispiel: Schach
Keine Informationen voriger Zustände nötig (Markov-Eigenschaft)
mathematische Formulierung der Markov Eigenschaft
Zustände ohne Markov-Eigenschaft:
Zustände mit Markov-Eigenschaft:
Annäherungen an die Markov-Eigenschaft
},,,,,,,,,|,'{ 00011111 rasrasrasrrssWs tttttttt
},|,'{ 11 tttt asrrssWs
Institut für Informatik - 20 -
6. Markov-Eigenschaft und MDP
Markov-Decision-Process (MDP)
Alle Zustände besitzen die Markov-Eigenschaft
Aussagen über „Reinforcement Learning“ gelten nur für MDPs
Mathematischen Eigenschaften des MDP
Übergangswahrscheinlichkeit:
Folgezustand für Aktion nicht zwingend eindeutig
},|'{ 1' aassssWsP tttass
Institut für Informatik - 21 -
6. Markov-Eigenschaft und MDP
Beispiel für Übergangswahrscheinlichkeit
Erweiterter Zustandsgraph:
Erwarteter Reward:
bzsP
a b
w x y z
awsP
axsP
bysP
s
},|'{ 1' aassssWsP tttass
}',,|{ 11' ssaassrER ttttass
Institut für Informatik - 22 -
7. Value Functions
Value Functions bewerten Zustände
Definition
Die Value Function repräsentiert den „erwarteten Return“:
Die Value Functions sind von der Policy abhängig
ssrEssREsV t
kkt
ktt |}|{)(
0)1(
Institut für Informatik - 23 -
7. Value Functions
Auflösen der Formel:
}|{)( ssREsV tt
ssrE t
kkt
k |0
)1(
ssrrE t
kkt
kt |
0)2(1
a s kkt
kass
ass rERPas
' 0)2(''),(
a s
ass
ass sVRPas
''' )'(),(
s
s1 s2 s3
a1 a2
1
1
assP
1
2
assP
1
3
assP
Institut für Informatik - 24 -
7. Value Functions
Action-Value Functions
Bewerten ein Zustand-Aktions-Paar
Definition:
Optimale Value Functions
Value Functions konvergieren gegen optimale Value Functions (ausgelernt)
Policies mit optimalen Value Functions sind optimale Policies
Strategie: Bei optimalen Value Functions eine greedy Policy verwenden
aassrEaassREasQ tt
kkt
kttt ,|},|{),(
0)1(
Institut für Informatik - 25 -
7. Value Functions
Optimale Value Function am Labyrinthbeispiel
-1-1-1-1-1-1-1 -1-1 -1 -1 -1-1 -1
-1-1 -1-1
-1-1 -1-1
-1-1
-1-1
-1-1
-1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1
-1-1 -1-1 -1-1 -1-1 -1-1 -1-1 -1-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 80
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
-1 -1
8022 Schritte
Return von 59
Institut für Informatik - 26 -
8. Fazit und Ausblick
Zusammenfassung
Ursprung und Allgemeine Beschreibung von Reinforcement Learning
Formales Modell für Reinforcement Learning (allen wichtigen Elemente)
Anwendungsbeispiele
Zusammenfassung
Modell dient als Rahmen für die Entwicklung von Anwendungen
Beispiele: Monte Carlo Methoden, Dynamisches Programmieren, Temporal
Difference Learning
Institut für Informatik - 27 -
9. Literaturreferenzen
[1] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An
Introduction, Chapter 1 - Introduction, MIT Press, Cambridge, MA, 1998
[2] Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An
Introduction, Chapter 3 - The Reinforcement Learning Problem, MIT Press,
Cambridge, MA, 1998
Top Related