博士論文本審査スライド

79
State-Action Map Compression by using Vector Quantization for Decision Making of Autonomous Robots 自律ロボットの行動決定のための 状態行動地図のベクトル量子化圧縮 東京大学大学院工学系研究科 精密機械工学専攻 助手 上田 隆一 指導教員:新井 民夫

description

博士論文審査のスライド。今見ると字が多い。物量に訴えていたことがよく分かる。

Transcript of 博士論文本審査スライド

Page 1: 博士論文本審査スライド

State-Action Map Compression by using Vector Quantization for Decision Making of Autonomous Robots 自律ロボットの行動決定のための

状態行動地図のベクトル量子化圧縮 東京大学大学院工学系研究科

精密機械工学専攻 助手 上田 隆一

指導教員:新井 民夫

Page 2: 博士論文本審査スライド

予備審査からの主な変更点

¢ 他手法との比較を追加 l 動的計画法(DP)を使用する理由 l 計算量評価

• 関数近似手法 • 木構造による圧縮手法

¢ 各例題の性質に関する議論 l 歪み測度から読み取れる性質

2007年2月9日

2

博士論文審査

Page 3: 博士論文本審査スライド

2007年2月9日

3

1章 ロボットの実時間行動決定

¢  例:ロボットサッカー のゴールキーパー

l  なるべく速く行動決定

l  ロボット(自律)のCPUは速くない(200MHz)

※2倍速 どうやって実現したか? 別の計算機で動的計画法による行動則(=方策)を作成→実装

博士論文審査

Page 4: 博士論文本審査スライド

2007年2月9日

4

動的計画法による方策作成と利用

¢  動的計画法[Bellman 57]

(dynamic programming, DP) l  適制御問題の解法

l  適用方法(前述のキーパー)

1.  考慮すべき状態変数を選択

2.  状態空間を張る

3.  格子状に状態空間を離散化

4.  評価関数を 大化する行動を全離散状態に記述

ロボットの位置・向き (3次元)

ボールの位置 (2次元)

ロボットは状態からとるべき行動を反射的に選択可能

博士論文審査

Page 5: 博士論文本審査スライド

2007年2月9日

5 DPの適用方法(連続空間の 適制御→有限マルコフ決定過程)

¢  有限個の行動集合 A = {a1, a2,... , aM} ¢  状態変数 x1, x2,... , xn で状態空間 X を張る

l  格子状に離散化 S = {s1, s2,... , sN}

¢  状態方程式 dx/dt = f (x, a) l  時間の離散化→状態遷移確率 Pss'

a

¢  評価関数 g(x,u)(例:時間消費,失点リスク等)

l  時間の離散化→Rss'a

¢  評価汎関数 J =∫g(x,u) dt = Σ Rss'a

評価 J の 大化

x

xf

離散 状態

博士論文審査

Page 6: 博士論文本審査スライド

2007年2月9日

6

DPから得られるデータ

¢ 終端状態までの評価 J (sの価値)

l 状態価値関数 V(s) = 価値

¢ 価値を 大化する行動

l 方策 π(s) = a

¢ 与えられた制御問題や離散化方法に対して 適 l 連続系では離散化が細かいほど 適に

• Hamilton-Jacobi-Bellman方程式の解に近づく

x

xf

博士論文審査

Page 7: 博士論文本審査スライド

DPによる全状態に対する方策計算

¢ 方策作成時に大きな計算コスト

¢  適性が保証されない場合がある l 状態観測に誤差(改善方法については[上田07]参照) l 状態方程式が制御対象の性質を表していない場合

2007年2月9日

7

実機を使った学習的アプローチ との優劣がしばしば議論となる

博士論文審査

Page 8: 博士論文本審査スライド

強化学習[Sutton 98等]との対比

DP(単純離散化) 強化学習

解の収束性 確実 十分な「経験」が必要

解の範囲 全状態空間をカバー 経験の多い 状態のみ学習

計算量・ メモリ消費

大きい 解の収束性・範囲の広さを 重視しなければ小さい

離散化の 自由度

高い 低い

人間の手間 ロボットの挙動の忠実な数式モデル化が必要

学習中のロボットの世話

2007年2月9日

8

モデル化の困難はあるが,状態空間 全域にわたって利用できる方策を得たい

博士論文審査

Page 9: 博士論文本審査スライド

2007年2月9日

9

メモリ消費と方策性能のトレードオフ

¢ メモリ消費-性能グラフ

連続空間で 適な方策

の性能

性能

劣化

メモリ消費 大 小

単純な格子状の離散化で得られる方策のグラフ

博士論文審査

Page 10: 博士論文本審査スライド

2007年2月9日

10

メモリ消費削減の従来研究 ¢  離散化を工夫し,低メモリ消費で方策作成

l  木構造による状態空間分割[Munos 98, 02]

¢  状態価値関数の表現を工夫,少ないメモリで表現 →状態価値関数を行動決定に利用 l  強化学習で主に用いられるがDPにも応用可能

•  ニューラルネットワーク[Tesauro 95], 動径基底関数[Broomhead 88, Moody 89],タイルコーディング[Watkins 89, Sutton 95, Albus 71, ...],内挿[Takahashi 01] ...

博士論文審査

Page 11: 博士論文本審査スライド

2007年2月9日

11

従来研究のメモリ利用方法

性能

劣化

メモリ消費 大 小

ロボットのメモリ量

目標性能

単純な格子状の離散化で得られる方策のグラフ

この範囲で問題を解こうとする

¢  利点:単純離散化DPよりも大規模な問題を扱える

¢  ロボットの他に単純離散化DPが実行可能な計算機がある場合にあえて適用すると発散や性能低下の懸念が増大

博士論文審査

Page 12: 博士論文本審査スライド

2007年2月9日

12

提案:方策の圧縮 ¢  大容量メモリ,高速CPUを有する計算機を使ってDP実行

→ロボットに方策を圧縮実装

¢  詳細な状態価値関数・方策が既知

l  方策の冗長性等が分かった上でメモリ節約可能

メモリ消費 ロボットのメモリ量

性能

劣化

格子状に離散化した場合

目標 性能

計算機(PC)のメモリ量

博士論文審査

Page 13: 博士論文本審査スライド

2007年2月9日

13

研究の目的

¢  方策圧縮の概念を導入

l  状態空間を格子状に離散化して作成した方策を圧縮するアルゴリズムの開発

•  格子状の離散化方策=状態行動地図(地図)

l 状態行動地図の圧縮 • 有限マルコフ決定過程に適したアルゴリズムの提案

• ベクトル量子化を利用[Gersho 92等]

• 方策を得た後に圧縮することの利点を示す

博士論文審査

Page 14: 博士論文本審査スライド

2007年2月9日

14

本論文で扱う例題 ¢  水たまり問題,アクロボットの制御,ロボットサッカー

l  共通点:いずれも有限マルコフ決定過程としてDPで解ける l  違い:次元,行動の種類,離散化の粒度,冗長性

水たまり問題の地図

(2次元)

アクロボット制御の地図

(4次元地図の抜粋)

ロボットサッカーの地図

(8次元地図の抜粋)

博士論文審査

Page 15: 博士論文本審査スライド

2007年2月9日

15

発表の構成

l  1章:序論

¢  手法の説明(水たまり問題)

l  2章:状態行動地図の作成

l  3章:状態行動地図の圧縮

l  4章:圧縮率の向上

¢  例題

l  5章:アクロボット

l  6章:ロボカップ

¢  評価

l  7章:比較,議論

l  8章:結論

博士論文審査

Page 16: 博士論文本審査スライド

2007年2月9日

16

2章:状態行動地図

¢ DPによる作成方法の例を示す

¢ メモリ消費-性能グラフの例を示す 性

能劣

メモリ消費

博士論文審査

Page 17: 博士論文本審査スライド

2007年2月9日

17 例題:水たまり問題[Sutton]

¢  エージェントが水たまりを避けてゴールまで移動

l  環境:広さ1×1のxy平面

¢  評価関数 l  一歩につき 1[step] l  水たまりに入った場合:岸からの距離×400[step]

¢  ゴールまでの評価関数の和を 小化するマルコフ決定過程

エージェント ・平面状の点 ・行動:上下左右の4種類 (平均移動距離0.05,ふらつく)

1 0.1

博士論文審査

Page 18: 博士論文本審査スライド

2007年2月9日

18

離散化

¢  状態変数:ロボットの位置(x,y) l  状態空間:2次元

•  状態価値関数,地図も2次元

¢  離散化

l  状態空間をN分割(一辺√ 区間)

•  S = {s0, s1, s2,..., sN-1}

l  行動: A = {上,下,左,右} ( 初から量子化されている)

¢  状態遷移(s∈Sで行動a∈A→ s' ∈S に遷移)に対し以下を計算

l  状態遷移確率:Pss'a

l  評価関数:Rss'a

(x,y)

離散状態

N

DP適用可能になる

博士論文審査

Page 19: 博士論文本審査スライド

2007年2月9日

19

DP(価値反復アルゴリズム)の適用

¢  状態価値関数V の計算

l  V を適当に初期化 (ゴールではV =0)

l  局所演算の繰り返し

•  V(s) := Σ Pss'a [Rss'

a + V(s')] • 状態遷移に対し,遷移先の評価

+価値の期待値を求めて代入

¢  V から方策π の作成

l  π (s) := argmaxa Σ Pss'a [Rss'

a + V(s')]

配列上の方策=状態行動地図

(実際はバイナリ列)

博士論文審査

Page 20: 博士論文本審査スライド

2007年2月9日

20

水たまり問題でのDP結果

10×10 40×40 200×200

40×40 200×200 10×10

状態価値 関数

状態行動地図

最適

行動

博士論文審査

Page 21: 博士論文本審査スライド

2007年2月9日

21

メモリ消費-性能グラフの作成

¢  メモリを多く使うと性能が上がることの一例

¢  シミュレーション手順

l  100万点の初期状態からそれぞれ試行

•  評価(歩数+水たまりの罰)の平均値を取る → その方策の性能

20.020.220.420.620.821.021.221.421.621.8

1.E+01 1.E+02 1.E+03 1.E+04 1.E+05 1.E+06

地図のメモリ消費[bit] 101 102 103 104 105 106

良い

←性

能[s

tep]→

悪い

10×10 の 離散化

202

402

1002 2002

4002

メモリ消費が指数乗的に増加→性能は漸近的に向上

博士論文審査

Page 22: 博士論文本審査スライド

2007年2月9日

22

2章のまとめ

¢ 状態行動地図

l 状態空間を格子状に離散化して各離散状態に適切な行動を記述した配列

l 離散化を細かくすることで性能を向上させることができる一方,メモリ消費が大きくなる

博士論文審査

Page 23: 博士論文本審査スライド

2007年2月9日

23

3章:状態行動地図の圧縮

¢ 高い圧縮率を得るために不可逆圧縮を適用(=地図を変化させる)

l 課題:一つの行動の変化のみで地図全体に影響

¢ ベクトル量子化(VQ)[Gersho 92等] l 配列状のデータ(映像,音声)

圧縮に用いられる

l 状態行動地図に適用する利点

• 圧縮したまま任意の離散状態の行動が取り出せる

到達不可能 (破壊)

博士論文審査

Page 24: 博士論文本審査スライド

2007年2月9日

24

ベクトル量子化(VQ)

¢  手順 1.  配列を均等に切ってブロック(ベクトル)を作成

2.  似たベクトルを分類(クラスタリング) •  「歪み測度」でベクトルの差異を数値化

3.  各クラスタのベクトルを代表ベクトルで置き換え •  「歪み測度」が 小になる代表ベクトル

再生

圧縮

例)2値画像の圧縮・再生

0 0 0

0 0 0 0 1 0 0

1 0 0 10 0 1 0 0 1 2 0 1 0

0 1 0 3

1 1

2

0 2

3

3 3

2

ü 状態行動地図の場合,歪み測度の定義が難しい

データの変化

博士論文審査

Page 25: 博士論文本審査スライド

2007年2月9日

25

状態価値歪みの提案

¢  状態価値関数を使用して歪み測度を定義

l  d(s,a) = V(s) - Σs' Pss'a [Rss'

a -V(s') ] •  地図中の状態sの行動が別の行動aに変わった場合の価値の減少

l  地図の歪み: d(s,a) の総和

地図上の行動

等価な行動

変換に適さない行動

ü 状態価値歪みを 小化するように地図を変化させる

状態価値関数

博士論文審査

Page 26: 博士論文本審査スライド

2007年2月9日

26

状態価値歪みを利用したVQ

地図を分割 (ブロック化・ベクトル化)

クラスタリング・代表ベクトル計算

(状態価値歪み 小化)

ベクトル数:100 代表ベクトル数:Nc = 50 Nc = 10 Nc = 4

圧縮 圧縮 圧縮

圧縮地図の作成

※一対法による 近傍 クラスタリング [Equitz 89]

各ベクトルの同一番目の要素が 行動決定上の「同じ状態」とみなされる 博士論文審査

Page 27: 博士論文本審査スライド

2007年2月9日

27

圧縮地図のビット数計算

¢ メモリ消費 l  圧縮前:1002×2 = 20000[bit] l  圧縮後:1000[bit] l  圧縮率:0.05

圧縮地図

100×4個の行動の配列:符号帳100×4×2 = 800[bit]

代表ベクトルの配置:量子化テーブル100×2 = 200[bit]

博士論文審査

Page 28: 博士論文本審査スライド

2007年2月9日

28

3章まとめ

¢ VQで作成された圧縮地図は符号帳と量子化テーブルで構成される

¢ 状態価値関数から歪み測度(状態価値歪み)を定義

l 行動の変化がタスクに与える影響を考慮して地図を不可逆圧縮

博士論文審査

Page 29: 博士論文本審査スライド

2007年2月9日

29

5章:アクロボットの振り上がり

¢  アクロボット

l  劣駆動ロボットの一種[美多 00]

¢  振り上がりタスク(height task)

l  目標の高さまで 小時間でロボットを振り上げ

¢  地図中の隣接状態の行動(トルク) が異なっている割合が大きい

目標の高さ

1.9[

m]

リンク1 (1m)

リンク2 (1m)

トルクは第二関節のみ

重力

博士論文審査

Page 30: 博士論文本審査スライド

2007年2月9日

30

パラメータ設定・DPの適用

¢  [Sutton 98]より

l θ1 θ2 θ1 θ2 空間の定義

• 角速度に制限:|θ1| < 4π, |θ2| < 9π [rad/s]

l 行動(トルク τ)

•  -1,0, or 1[Nm]に限定

• 周期: 0.2[s]

¢ 離散化 l  各軸を10[deg] or 10[deg/s]毎

• 30,233,088状態に離散化

¢  1.5GHz CPUで17時間計算

. .

. .

θ1

θ2

τ

両リンクのパラメータ [Sutton 98] • 長さ: 1m • 重量: 1kg • 重心: リンク中央 • 慣性モーメント: 1kgm2

博士論文審査

Page 31: 博士論文本審査スライド

2007年2月9日

31

作成した地図

θ2

θ1

0[deg] 360[deg]

180[deg]

36×18分割

720[deg/s]

-720

-1620

θ1

.

. θ2

144×324分割

1620

黒:1[Nm] 白:-1[Nm] 灰:0[Nm]

博士論文審査

Page 32: 博士論文本審査スライド

2007年2月9日

32

地図の圧縮

648 ブロック

¢  手順

1.  地図をθ1,θ2 軸に垂直に切断

•  4D地図→648個の2Dベクトル

2.  Nc個のクラスタに分類

•  一般化Lloydアルゴリズム[Lloyd 82]を使用

•  状態価値歪みを利用

博士論文審査

Page 33: 博士論文本審査スライド

2007年2月9日

33

圧縮地図 (代表ベクトル数:Nc=16)

博士論文審査

Page 34: 博士論文本審査スライド

2007年2月9日

34

圧縮地図 (代表ベクトル数:Nc=1)

¢ 角速度のみを考慮した2次元状態行動地図

l 圧縮により4次元地図から2次元地図が生成

¢ 圧縮率:0.0015 博士論文審査

Page 35: 博士論文本審査スライド

2007年2月9日

35

圧縮地図によるアクロボットの動作

¢ 低角速度のとき

l 順方向にトルクを加える

• 振り子運動

¢ 高角速度のとき

l 逆方向にトルクを加える

• まっすぐになろうとする

振りあがるための動作が保存されている

博士論文審査

Page 36: 博士論文本審査スライド

2007年2月9日

36

性能評価シミュレーション

¢ 手順

l 14,167通りの初期状態から試行 • 初期位置を3[deg]刻みで選択

• 初期速度はゼロ

¢ 評価指標 l  タスク終了までの平均時間

l  角速度の制限超過→失敗

損失:2.44[s] 圧縮率:0.0015

圧縮前の地図

Nc=1 Nc=16

※全試行で成功

地図のメモリ消費[bit]

時間

消費

[s]

博士論文審査

Page 37: 博士論文本審査スライド

2007年2月9日

37

5章のまとめ

¢ 状態行動地図の作成

l 計算時間:17 時間(1.5GHz CPU)

¢ 圧縮地図

l 圧縮率0.0015で2.44[s] の時間ロス

¢  4次元地図を2次元に落とした

博士論文審査

Page 38: 博士論文本審査スライド

2007年2月9日

38

使用されるロボット:ERS-210

6章:ロボットサッカー

¢  ロボット研究の標準問題

l  ロボカップ4足ロボットリーグ

¢  DPにとって大規模な問題への手法適用

l  2台のロボットの行動の同時計画

¢  ロボットのメモリ量(16[MB])を超える状態行動地図の圧縮

博士論文審査

Page 39: 博士論文本審査スライド

2007年2月9日

39 2台のロボットによる得点タスク(シミュレーション)

¢ ロボット2台(ERS-210を仮定) が 少時間で得点する地図を作成

l ロボットは自己の位置・向き,ボールの位置を計測

→無線LANで情報交換 (行動決定より高頻度,遅れなし)

シュート

博士論文審査

Page 40: 博士論文本審査スライド

2007年2月9日

40

有限マルコフ決定過程化,DP実行

¢  状態空間(8次元)

l  各ロボット位置・向き

l  ボール位置

l  610,829,100状態に離散化

¢  ロボットの行動: 73通り

l  2台の行動の組み合わせ

•  各ロボット:歩行14種類・飛距離2[m]のキック3種類

¢  評価関数:行動ごとに1[step] ¢  10日間計算(Pentium D 3.2GHz) Fig. 歩行行動

博士論文審査

Page 41: 博士論文本審査スライド

得られた状態行動地図による行動例

¢  ゴールまでの歩数減少のための工夫が見られる l  同時に2台のロボットがボールを蹴りに行かない

l  縦パスのような行動

•  ボールを蹴るロボットと受け手となるロボットの役割分担

2007年2月9日

41

2007年2月9日

圧縮後の地図も歩数減少に寄与する行動を保持できるか?

博士論文審査

Page 42: 博士論文本審査スライド

42

ベクトル量子化の適用 ¢  状態行動地図(610,829,100要素,8次元)

を8.2[MB]まで圧縮 ¢  計算時間: Lloydアルゴリズムで21時間(Pentium D 3.2GHz)

¢  蹴る順番や回数が変化 l  (良く解釈すれば)メモリ量減少に対して

2台のロボットの行動則が柔軟に変化している 2007年2月9日 博士論文審査

Page 43: 博士論文本審査スライド

2007年2月9日

43

圧縮前後の地図の定量的比較 ¢  1万の初期状態からシミュレーション

¢  比較対象 l  1) 状態行動地図(圧縮前)

2) 圧縮地図3) 他機を無視(自己位置+ボール位置の5次元地図)

¢  評価指標

l  平均ステップ数

l  タスク成功率(失敗の例:デッドロック)

l  ステップ数が増加→劣化 l  成功率は減少せず

→デッドロックは増加しない

平均step数 成功率

圧縮前 37.5 [step] 97.4%

圧縮地図 40.4 [step] 97.4%

他機を無視 42.8 [step] 93.8%

博士論文審査

Page 44: 博士論文本審査スライド

2007年2月9日

44

6章のまとめ

¢  42億[bit](500[MB])の状態行動地図を作成

¢ 圧縮率0.016までVQ圧縮

l  2.9[step]の劣化 l  圧縮によるデッドロックの増加はほとんどない

博士論文審査

Page 45: 博士論文本審査スライド

2007年2月9日

45

7章:評価と議論

①  圧縮結果のまとめ

②  状態価値歪みの評価

l  他に有効な歪み測度の定義はないか?? l  各例題における状態価値歪みの性質

③  本手法と他手法の比較

l  地図を得るまでの計算時間 l  圧縮率 l  性能

博士論文審査

Page 46: 博士論文本審査スライド

2007年2月9日

46

20.020.220.420.620.821.021.221.421.621.8

1.E+01 1.E+02 1.E+03 1.E+04 1.E+05 1.E+06

① 圧縮結果のまとめ

地図のメモリ消費[bit] 101 102 103 104 105 106

¢  水たまり問題のメモリ消費-性能グラフ

¢  以下のような圧縮地図が得られていることを確認 l  粗い非圧縮地図と同性能でメモリ消費が小さい l  粗い非圧縮地図と同じメモリ消費で性能が良い

性能

(歩

数+水

たま

り)[s

tep]

青:状態行動地図(圧縮前) オレンジ:10×10地図からの圧縮地図 赤:40×40地図からの圧縮地図 緑:400×400地図からの圧縮地図

博士論文審査

Page 47: 博士論文本審査スライド

2007年2月9日

47

¢ アクロボットのメモリ消費-性能グラフ

¢ DPで離散化が粗いと性能が落ちる

¢ DPで細かく離散化して圧縮することが有効な例

0246810121416

地図のメモリ消費[bit] 109 108 107 106 105 104

時間

消費

[s]

青:状態行動地図(圧縮前) 赤:圧縮地図

1:0.0031

粒度の粗い地図

粒度の細かい地図から得られた圧縮地図

博士論文審査

Page 48: 博士論文本審査スライド

2007年2月9日

48

② 状態価値歪みの評価

¢ 他に考えられる歪み測度の定義

l 変化数歪み(change count distortion)

• 圧縮により変化した行動の個数を歪みと定義

l 制御入力歪み(control input distortion)

• 行動(制御入力)のパラメータ空間での距離を歪みとする

• 水たまり問題:移動距離の差

• アクロボット:トルクの差

博士論文審査

Page 49: 博士論文本審査スライド

2007年2月9日

49

比較結果

水たまり問題 (離散化:N =1002)

性能

[ste

p]

青:状態価値歪み 赤:変化数歪み 緑:制御入力歪み

メモリ消費[bit] 103 104

21.1 20.9 20.7 20.5 20.3

アクロボット

メモリ消費[bit] 時

間[秒

] 105 106 107 108

18 16 14 12 10

98.1%

97.4%

成功率

42.0 [step]

41.5 [step]

平均step数

変化数歪み

状態価値歪み

歪み測度

ロボカップの得点タスク

博士論文審査

Page 50: 博士論文本審査スライド

2007年2月9日

50

行動価値歪み評価のまとめ ¢  状態価値歪みに汎用性,他と同等以上の効率維持

¢  3つの例題を比べると水たまり問題で特に有効

l  状態価値歪みは水たまりに入る行動を強く抑制できる •  大の状態価値歪み:40[step]程度と,

タスクを通じて得られる評価(21[step]程度)と比較して大きい

l  他の例題の場合 • アクロボット:各状態価値歪み(タイムロス)は

タスクにかかる時間と比較して大きくない • 得点タスク:限界まで圧縮していない

状態価値歪みには,圧縮率を高くした際に, 不利な行動選択をなるべく抑制する働きがある

博士論文審査

Page 51: 博士論文本審査スライド

2007年2月9日

51

③ 他手法との比較

¢ 良く用いられる手法を水たまり問題で比較 l DPの計算時間も比較

l 状態価値関数の表現の工夫

• タイルコーディング[Watkins 89, Sutton 95, Albus 71, ...] • 内挿

l 方策圧縮

• 木構造を用いた圧縮

•  [Munos 98, 02]の方法を方策圧縮に応用

博士論文審査

Page 52: 博士論文本審査スライド

2007年2月9日

52

状態価値関数の表現の工夫

¢  タイルコーティング

l  数種類の離散化方法をずらして重ねる

l  適用方法

• 各格子空間(5枚)に対してDPを実行

•  ある状態の価値は5枚の価値関数の平均値

¢  内挿

l  離散的な状態価値関数を平滑化

タイルコーティング

離散状態の合計数よりも多くの擬似離散状態を作成できる

内挿

博士論文審査

Page 53: 博士論文本審査スライド

2007年2月9日

53

状態価値関数のメモリ消費-性能グラフ

¢  TCや内挿では工夫に見合った性能が得られない

l  適用方法を改良しないとメモリ消費に関しては無駄→問題依存,実装依存

メモリ消費[bit]

性能

[ste

p]

赤:TC上の状態価値関数 オレンジ:内挿した状態価値関数 青:単純な配列上の状態価値関数

※価値は16ビット表現

黒:圧縮前の状態行動地図

107 102 103 104 105 106 20.2

20.4

20.6

20.8

21.0

21.2

21.4

※状態価値関数からの行動決定法: モンテカルロ法(100サンプル)による価値予測

博士論文審査

Page 54: 博士論文本審査スライド

2007年2月9日

54

DPの計算時間-性能グラフ

¢  TCをDPに適用すると計算量が大きくなる l  理由:状態遷移の計算が複雑になるため

• 離散状態の形状が均一でなくなる

計算時間[s]

性能

[ste

p]

赤:TC上の状態価値関数 オレンジ:内挿した状態価値関数 青:単純な配列上の状態価値関数 黒:圧縮前の状態行動地図

10-1 100 101 102 103 20.2

20.4

20.6

20.8

21

21.2

21.4

タイルコーティング (2102 4枚+2002 1枚)

計算時間:3480[s]

通常のDP(N =4002 ) 計算時間:1260[s]

博士論文審査

Page 55: 博士論文本審査スライド

2007年2月9日

55 ノード

葉(リーフ)

枝(ブランチ) 木構造による方策表現

¢  2分木で方策を表現(2分木地図)

l 状態空間の2分割と行動の割り当てを繰り返し,離散状態の粒度を可変に

277分割 1913分割 状態価値関数

状態価値歪み計算

歪み 大の領域を分割

博士論文審査

Page 56: 博士論文本審査スライド

2007年2月9日

56

2分木地図とVQ圧縮地図の比較結果

20.020.220.420.620.821.021.221.421.621.8

1.E+01 1.E+02 1.E+03 1.E+04 1.E+05 1.E+06

性能

[ste

p]

地図のメモリ消費[bit] 101 102 103 104 105 106

2分木地図(黒) VQ圧縮地図(赤)

非圧縮状態行動地図(青)

¢  木構造による方策圧縮は詳細な状態価値関数が必要 l  正確な状態価値関数なしで良い分割方法を発見することは困難 l  DPの段階で分割することは難しい

¢  木構造は,自身の構造の表現にメモリを多く消費

l  離散状態の分割数は少ないがメモリ消費はVQと同等 博士論文審査

Page 57: 博士論文本審査スライド

圧縮地図作成のための計算量

同効率の地図(20.31[step])

圧縮に かかる時間

DPを含めた時間

容量

VQ地図 (N =2002, Nc = 36) - PNN→Lloyd→再圧縮

33[s] 124[s] 9676[bit]

2分木地図 (N =4002, 1913分割) 30[s] 1296[s] 12240[bit]

¢  時間計算量 l  O(MNN' )  (N' :状態遷移先の数) l  VQのアルゴリズム

•  PNN:O(MN 3/ Nε2 ),Lloyd: O(NNc

)

l  2分木圧縮:O(MN )

¢  VQは粗い地図からも適用可能なため, DPを含めた計算時間を考えると木構造より有利

2007年2月9日

57

博士論文審査

Page 58: 博士論文本審査スライド

2007年2月9日

58

8章:結論

¢  方策圧縮の概念を導入(3章)

l  動的計画法(DP)で作成された状態行動地図を,ベクトル量子化(VQ)で圧縮する手法を開発

• 状態価値歪みの導入(=状態価値関数の利用)

• 地図の変化時に適切な代替行動を割り当て • 高い圧縮率でも不適切な行動を抑制

¢  ロボットのメモリ量を超える地図の圧縮(6章)

l  6億状態の地図を圧縮し,デッドロックを増加させずに ERS-210のメモリ搭載量(16[MB])より小さな(8.2[MB]) 圧縮地図を作成

博士論文審査

Page 59: 博士論文本審査スライド

2007年2月9日

59

結論(続き) ¢  他手法との比較・方策圧縮の概念の有効性(3,5,7章)

l  状態価値関数の表現の工夫によるメモリ量削減は, 以下の点で不利(水たまり問題の場合)

•  得られる方策の性能が低い •  状態遷移の計算が複雑になり,計算量が増加する場合がある

l  木構造による方策圧縮は詳細な状態価値関数が必要 •  正確な状態価値関数なしで 適な分割方法を発見することは難しい

→DP後のVQ圧縮の有効性

博士論文審査

Page 60: 博士論文本審査スライド

2007年2月9日

60

今後の展望

¢ 実機実験

¢ メモリ消費-性能-計算時間グラフで方策を3元評価

l 探索手法も統一的に評価できる

メモリ消費

性能

計算時間

博士論文審査

Page 61: 博士論文本審査スライド

2007年2月9日

61

今後の展望(続き)

¢ 身体性に関する話題との関連づけ

l 身体性=制御問題や行動決定問題を      簡単にすること

¢ 強化学習への応用

博士論文審査

Page 62: 博士論文本審査スライド

2007年2月9日

62

参考資料

博士論文審査

Page 63: 博士論文本審査スライド

2007年2月9日

63

アクロボットに関する従来研究

¢  強化学習 [Sutton 96]

l  ダイナミクスが未知の場合

l  全状態空間で解を作成することは困難

¢  解析的手法 [Spong 94,95]

l  力学的エネルギーを考慮した動作設計 [Xin 02,04]

¢  数値計算

l  力学的エネルギーを考慮したDP [Boone 97]

ü  ヒューリスティックを用いず動的計画法で解いた例が  見られないが,可能であると考えられる

博士論文審査

Page 64: 博士論文本審査スライド

2007年2月9日

64

VQ地図の再 適化 ¢ 符号帳の内容を価値反復によって書き換え

再計算

符号帳更新

c0 c1 c2

符号帳 (書き換える)

00111222222222000000 量子化テーブル(そのまま)

VQ地図

再 適化 修復

状態価値関数

博士論文審査

Page 65: 博士論文本審査スライド

2007年2月9日

65

VQ地図の圧縮

¢ 各代表ベクトルには冗長性が残る →もう一度のベクトル量子化(可逆圧縮)でサイズ減少

¢ 例

l  圧縮前: 2*202=800[bit]

l  VQ圧縮: 2*20 + 3*2*20 = 160[bit] (1:0.2) l  再VQ圧縮: 2*20 + 3*20 + 2*21 = 142[bit] (1:0.18)

VQ地図

一度目のVQ

二度目のVQ

博士論文審査

Page 66: 博士論文本審査スライド

2007年2月9日

66

ボールへの接近タスク

¢  行動決定の目的 l  ボールに触れず 小歩数でボールに到達

l  相手ゴール向きでボール確保

¢  フィールドのサイズ:4.2×2.7[m] ¢  行動:移動量固定の歩行(38種類)

攻撃方向

Fig. 歩行行動

博士論文審査

Page 67: 博士論文本審査スライド

2007年2月9日

67

価値反復の適用

¢  765,450状態に離散化(終端状態:8,175状態)

l ロボットの位置・姿勢

• 位置(x, y):21×15に分割,方向θ:18分割

l ロボットからのボールの位置

• 距離方向r :9分割,角度方向ϕ :15分割

¢ 終端状態の設定 l  条件1: 150 ≤ r < 250[mm] l  条件2: |ϕ | ≤ 35[deg] l  条件3: |θ | ≤ 40[deg] or

ロボットから見たゴールの方向が40[deg]以内

博士論文審査

Page 68: 博士論文本審査スライド

2007年2月9日

68

¢ 状態価値関数が全く変化しなくなるまで計算

l 収束までの時間:1.3×103[s](Pentium4 3.6 GHz)

Fig. 地図の一部 (フィールド上の各位置でロボットがボールの方向を向いているときの行動)

ボール

ゴー

終端状態

価値反復結果

博士論文審査

Page 69: 博士論文本審査スライド

2007年2月9日

69

圧縮

¢  5次元の状態行動地図を405状態を含むブロックに分割

¢  一対法による 近傍クラスタリングアルゴリズム[Equitz 89]で圧縮

l  計算時間:54分(Pentium4 3.6 GHz), 圧縮率:0.015[%]

Fig. VQ地図の一部 (単純化が見られる)

博士論文審査

Page 70: 博士論文本審査スライド

2007年2月9日

70

得られる行動の例

博士論文審査

Page 71: 博士論文本審査スライド

2007年2月9日

71

実機実験

¢  圧縮前後の地図を比較

¢  右図の3通りの初期状態からタスク成功までの歩数を計測

l  タスク成功:終端状態後,ロボットに前進させてボールが前に転がった場合

¢  各初期状態から50回試行

¢  評価指標

l  歩数の平均値

l  成功率

ロボットの初期位置

博士論文審査

Page 72: 博士論文本審査スライド

2007年2月9日

72

実機実験結果

¢  圧縮率0.015まで圧縮されたVQ地図で同等の性能

l  実機では自己位置推定やボール位置の計測ミス等,他の要因の方が支配的

• 計画に必要な離散化と利用時に必要な離散化の粒度が異なる

圧縮前 圧縮後

成功率 歩数 成功率 歩数

条件1 100[%] 21.1 100[%] 21.1 条件2 96[%] 30.0 94[%] 29.2 条件3 68[%] 28.5 68[%] 27.2

博士論文審査

Page 73: 博士論文本審査スライド

2007年2月9日

73

4章:圧縮率の向上

¢ 圧縮率,効率を向上させる手法群の提案

l 良いベクトル化方法を見つけるための情報エントロピー関数

l 他

• VQ地図のための価値反復

• VQ地図の圧縮

• パーティショニング

博士論文審査

Page 74: 博士論文本審査スライド

2007年2月9日

74

ベクトル化(地図の分割方法)の選定方法

¢  上記の良し悪しを数値化できないか →エントロピーによる事前評価

l  情報エントロピー関数 H = -Σ i=1...M P(Xi) log2 P(Xi)  (Xi, i=1,2,...M:事象)

悪い例 良い例

ベクトル ベクトル

博士論文審査

Page 75: 博士論文本審査スライド

エントロピーの計算方法

¢  要素ごとに行動の偏りを エントロピーHとして計算 →平均Hを求める

¢  Hが小さい l  分布に偏りが存在し,

圧縮に有利と考えられる

2007年2月9日

75

ベクトル ベクトル

計算

計算

・・・ ー

計算

平均をとる

博士論文審査

Page 76: 博士論文本審査スライド

4章のまとめ

¢ 圧縮に適したベクトルを作成するために エントロピー関数を導入

¢ 使用は5章,6章,7章で行う

2007年2月9日

76

博士論文審査

Page 77: 博士論文本審査スライド

2007年2月9日

77

軸 θ1 θ2 θ1 θ2

H 0.66 0.79 0.84 0.87

. .

各軸で垂直に地図を切って ベクトルを作成した場合のエントロピー

軸 x1 x2 y1 y2 θ1 θ2 r ϕ H 1.08 1.41 0.95 1.19 1.59 1.90 1.79 2.08

各軸で垂直に地図を切ってベクトルを作成した場合のエントロピー

博士論文審査

Page 78: 博士論文本審査スライド

2007年2月9日

78

研究の目的(つづき)

¢  複数の例題で開発手法を評価

l  メモリ消費-性能グラフの左側に評価点が来ることを確認する

性能

劣化

メモリ消費

圧縮

圧縮

博士論文審査

Page 79: 博士論文本審査スライド

各例題での圧縮率と冗長性の関係

2007年2月9日

79

圧縮率 隣接状態の冗長性 (行動が同じである確率)

水たまり問題(N=4002) 0.016 97%

アクロボット 0.0015 61%

得点タスク 0.016 34%

¢  隣接状態の冗長性と圧縮率の関連性は見られない l  隣接状態の冗長性を減らす手法との違い

¢  状態空間を構成する軸の一つが冗長であればよい l  アクロボット: θ1軸, θ2軸

l  得点タスク:ボールから遠い方のロボットの位置

博士論文審査