Learning (Part II) Hierarchical Reinforcement

Hierarchical Reinforcement Learning (Part II)

Mayank Mittal

What are humans good at?

Let’s go and have lunch!

1. Exit ETZ building 3. Eat at mensa2. Cross the street

1. Exit ETZ building

➔ Open door➔ Walk to the lift➔ Press button➔ Wait for lift➔ …..

3. Eat at mensa

➔ Open door➔ Wait in a queue➔ Take food➔ …..

2. Cross the street

➔ Find shortest route➔ Walk safely➔ Follow traffic rules➔ …..

Temporal abstraction

3. Eat at mensa

2. Cross the street

Transfer/Reusability of Skills

3. Eat at mensa

2. Cross the street

How to represent these different goals?

Powerful/meaningful state abstraction

Can a learning-based agent do the same?

Powerful/meaningful state abstraction

Promise of Hierarchical RL

Structured exploration

Transfer learning

Long-term credit assignment (and

memory)

Hierarchical RL

Environment

AgentM

Hierarchical RL

FeUdal Networks for Hierarchical Reinforcement Learning (ICML 2017)

Meta-Learning Shared Hierarchies (ICLR 2018)

Data-Efficient Hierarchical Reinforcement Learning (NeurIPS 2018)

Hierarchical RL

FeUdal Networks (FUN)

FeUdal Networks (FUN)Le

Temporal R

esolution

Dayan, Peter and Geoffrey E. Hinton. “Feudal Reinforcement Learning.” NIPS (1992).

Detour: Dilated RNN

▪ Able to preserve memories over longer periods

For more details: Chang, S. et al. (2017). Dilated Recurrent Neural Networks, NIPS.

Worker

Absolute Goal

(-3, 1)

(3, 9)

c : Manager’s Horizon

Directional Goal

Idea: A single sub-goal (direction) can be reused in many different locations in state space

▪ Intrinsic reward

Worker

▪ Action Stochastic

Policy!

Worker

Why not do end-to-end learning?

Worker

Manager & Worker: Separate Actor-Critic

No gradient

Transition Policy

Gradient

Policy Gradient

Qualitative Analysis

Ablative Analysis

Comparison

Action Repeat Transfer

Experiences

On-Policy Learning

Learning

Wastage!

Experiences

Can we do better?

Off-Policy Learning

Learning

Replay Buffer

Reusage!

Can we do better?

Off-Policy Learning

Unstable Learning

Can we do better?

Off-Policy Learning

To-Be-DisclosedUnstable Learning

Hierarchical RL

Data-Efficient HRL (HIRO)

Input Goal Action

Raw Observation Space

Rollout sequence

c : Manager’s Horizon

Environment

Manager

Worker(s)

Replay Buffer

Environment

Manager

Worker(s)

Replay Buffer

Environment

Manager

Worker(s)

Replay Buffer

Environment

Manager

Worker(s)

Replay Buffer

Can we do better?

Off-Policy Learning

Unstable Learning To-Be-Disclosed

Can we do better?

Off-Policy Learning

Unstable Learning Manager’s past experience might become useless

Can we do better?

Off-Policy Learning

t = 12 yrs

Goal: “wear a shirt”

Can we do better?

Off-Policy Learning

Same goal induces different behavior

t = 22 yrs

Can we do better?

Off-Policy Learning

Goal relabelling required!

t = 22 yrs

Goal: “wear a dress”

Data-Efficient HRL (HIRO) Off-Policy Correction for Manager

Environment

Manager

Worker(s)

Replay Buffer

Ant Push

Qualitative Analysis

Ablative Analysis

Experience Samples (in millions)

Experience Samples (in millions) Experience Samples (in millions)

Comparison

Experience Samples (in millions)

Can we do better?

What is missing?

Structured exploration

Hierarchical RL

Meta-Learning Shared Hierarchies (MLSH)

Taken after every N steps

Computer Vision practice:▪ Train on ImageNet▪ Fine tune on actual task

Slide Credits: Pieter Abbeel, Metal-Learning Symposium (NIPS 2017)

Computer Vision practice:▪ Train on ImageNet▪ Fine tune on actual task

How to generalize this to behavior learning?

Slide Credits: Pieter Abbeel, Metal-Learning Symposium (NIPS 2017)

Environment A

Environment B

...Meta-RL

Algorithm“Fast” RL

Image Credits: Pieter Abbeel, Metal-Learning Symposium (NIPS 2017)

Environment A

Environment B

...Meta-RL

Algorithm“Fast” RL

Environment F

Testing environments

Image Credits: Pieter Abbeel, Metal-Learning Symposium (NIPS 2017)

GOAL: Find sub-policies that enable fast learning of master policy

Ant Two-walks

Ant Obstacle Course

Movement Bandits

Comparison

Ablative Analysis

Four Rooms

Comparison

SummaryFUN● Directional goals● Dilated RNN● Transition Policy Gradient

MLSH● Generalization in RL algorithm● Inspired from “Options” framework

HIRO● Absolute goals in observation space● Data-efficient ● Off-policy label correction

Discussion

▪ How to decide temporal resolution (i.e. c, N)?

▪ Do we need discrete # of sub-policies?

▪ Future prospects of HRL? More hierarchies?

Thank you for your attention!

Any Questions?

References ▪ Vezhnevets, A.S., Osindero, S., Schaul, T., Heess,

N., Jaderberg, M., Silver, D., & Kavukcuoglu, K. (2017). FeUdal Networks for Hierarchical Reinforcement Learning. ICML.

▪ Nachum, O., Gu, S., Lee, H., & Levine, S. (2018). Data-Efficient Hierarchical Reinforcement Learning. NeurIPS.

▪ Frans, K., Ho, J., Chen, X., Abbeel, P., & Schulman, J. (2018). Meta Learning Shared Hierarchies. CoRR, abs/1710.09767.

Appendix

Hierarchical RL

Environment

Manager

Worker(s)

Hierarchical RL

Image Credits: Levy A. et. al (2019) Learning Multi-Level Hierarchies With Hindsight, ICLR

Detour: A2C

Image Credits: Sergey Levine (2018), CS 294-112 (Lecture 6)

Advantage Function:

Update Rule:

Worker

Policy Gradient

Advantage Function:

Update Rule:

Transition Policy Gradient

Assumption:

● Worker will eventually learn to follow the goal directions● Direction in state-space follows von Mises-Fisher distribution

Learnt sub-goals by Manager

Memory Task: Non-Match

Memory Task: T-Maze

Memory Task: Water-Maze

Comparison

Network Structure: TD3

Dimension of raw

observation space

Dimension of Action Space

Manager

Actor-Critic with2-layer MLP each

Worker

Actor-Critic with2-layer MLP each

For more details: Fujimoto, S., et. al (2018). Addressing Function Approximation Error in Actor-Critic Methods. ICML.

Approximately solved by generating candidate goals

Approximately solved by generating candidate goals :

● Original goal given:

● Absolute goal based on transition observed:

● Randomly sampled candidates:

Training

Environments

Ant Push Ant Fall

Ant Maze Ant Gather

Network Structure: PPO

Number of sub-policies

Dimension of Action Space

Manager

2-layer MLP with 64 hidden units

Each sub-policy

2-layer MLP with 64 hidden units

For more details: Schulman, J., et. al (2017).. Proximal Policy Optimization Algorithms. CoRR, abs/1707.06347

Training

Comparison

▪ Useful when input data is sequential (such as in speech recognition, language modelling)

Recurrent Neural Network

For more details: http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Stochastic NN for HRL (SNN4HRL)

For more details: Florensa, C. et. al (2017). Stochastic Neural Network for Hierarchical Reinforcement Learning. ICLR.

Aims to learn useful skills during pre-training and then leverage them for learning faster in future tasks

Variational Information Maximizing Exploration (VIME)

For more details: Houthooft, R. et. al (2016). VIME: Variational Information Maximizing Exploration, NIPS.

Exploration based on maximizing information gain about agent’s belief of the environment

Learning (Part II) Hierarchical Reinforcement

Documents

Transcript of Learning (Part II) Hierarchical Reinforcement

Introduction to Hierarchical Reinforcement Learning

Reinforcement Learning of Hierarchical Skills on the Sony Aibo …web.eecs.umich.edu/~baveja/Papers/icdl06.pdf · Reinforcement Learning of Hierarchical Skills on the Sony Aibo robot

Hierarchical Deep Reinforcement Learning through Scene Decomposition … · 2020. 8. 19. · Hierarchical Deep Reinforcement Learning through Scene Decomposition for Autonomous Urban

Hierarchical Deep Reinforcement Learning: Integrating ...papers.nips.cc/paper/6233-hierarchical-deep-reinforcement-learning... · work that integrates deep reinforcement learning

Interpretable Hierarchical Reinforcement Learningdivy.at/UGP_ReinforcementLearning.pdf · Keywords: Reinforcement Learning, Meta Learning, Multi-goal Generalization, Hierarchical

Hierarchical Approaches to Reinforcement Learning Using ... · the decision space (hierarchical reinforcement learning). In this work we ask whether we can use ideas introduced in

Hierarchical Deep Reinforcement Learning: Integrating Temporal … · 2016. 4. 21. · Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

Hierarchical Reinforcement Learning with Advantage-Based ...

Recent Advances in Hierarchical Reinforcement Learningprlt.dei.polimi.it/upload/5/5c/Hrl.pdf · Recent Advances in Hierarchical Reinforcement Learning Authors: ... Artificial Intelligence

Hierarchical Reinforcement Learning in Multi-Agent Environmentprojekter.aau.dk/projekter/files/61065342/1118927942.pdf · area of Hierarchical Reinforcement Learning. First a hierarchical

Hierarchical Imitation and Reinforcement Learning · 2018. 6. 1. · Hierarchical Imitation and Reinforcement Learning Ziebart et al.,2008;Syed & Schapire,2008;Ho & Ermon, 2016) assumes

FeUdal Networks for Hierarchical Reinforcement Learning · FeUdal Networks for Hierarchical Reinforcement Learning Alexander Sasha Vezhnevets VEZHNICK@GOOGLE.COM Simon Osindero OSINDERO@GOOGLE.COM

Hierarchical Reinforcement Learning Amir massoud Farahmand Farahmand@SoloGen.net.

Hierarchical Deep Reinforcement Learning: Integrating ... · Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction ... expected future intrinsic (controller)

Creating algorithmic traders with hierarchical reinforcement learning

Mechanisms of Hierarchical Reinforcement …ski.clps.brown.edu › papers › FrankBadre12.pdfAdvance Access publication June 21, 2011 Mechanisms of Hierarchical Reinforcement Learning

Hierarchical Bayesian Methods for Reinforcement Learning · Hierarchical Bayesian Methods for Reinforcement Learning. My Research: ... Intuitive theories ... Power grid control ...

Learning Generalizable Locomotion Skills with Hierarchical Reinforcement Learning · 2020. 7. 6. · Learning Generalizable Locomotion Skills with Hierarchical Reinforcement Learning

Hierarchical Reinforcement Learning

Hierarchical Reinforcement Learning Ersin Basaran 19/03/2005.