人間とのインタラクションにより言葉と行動を学習するロボット,...

Post on 11-Apr-2017

786 views 0 download

Transcript of 人間とのインタラクションにより言葉と行動を学習するロボット,...

人間とのインタラクションにより言葉と行動を学習するロボット

岡山県立大学情報工学部情報通信工学科

人工知能学研究室岩橋直人

1

内容

1. 対話技術の現状2. 動作と言語によるコミュニケーション学習機構

L‐Core の概要3. 物体概念の学習4. 動作の模倣学習5. 連続音声からの語彙の学習6. 共有信念に基づく発話理解の学習7. 共有信念に基づく発話生成8. 確認発話生成9. 実世界に関する質問応答の学習10. まとめ

2

1.対話技術の現状

3

4

言語理解のスペクトラム(Shank 85)

SHRDLU(72)

有意味

固定された構造によってのみ解釈され他者の理解を参照しない

認知的理解経験に基づいて学習したり変化する,現在の経験を過去の経験に知的に関連付ける,などができる

完全な感情移入

互いのすべての動きや動機がわかる親しい者同士の理解

従来技術

(ELIZA(66))

2. 動作と言語によるコミュニケーション学習機構 L‐Core の概要

5

ロボット対話

実世界情報をカテゴリ化、予測し、実世界を操作可能な対話システム

日常生活支援ロボットの対話機能は、現状ではまったく不十分である

ロボットの対話技術はとても難しい!どうして?

従来の言語処理では、記号の意味は記号で記述されているユーザーと物理世界に関する共有信念を形成できない

「いつものあれ持ってきて」「これを引き出しにもどしておいて」

6はじめに

共有信念はコミュニケーションの基盤7はじめに

翔太: コーヒーを飲むかい

美咲: コーヒーを飲むと目が覚めるわ

美咲は、目を覚ましたいので申し出を受けたい。美咲は、目を覚ましたくないので申し出を断りたい。翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。翔太は、美咲が目を覚ましたくないので申し出を断った、と思った。

共有信念はコミュニケーションの基盤8はじめに

翔太: コーヒーを飲むかい

美咲: コーヒーを飲むと目が覚めるわ

美咲は、目を覚ましたいので申し出を受けたい。

翔太は、美咲が目を覚ましたいので申し出を受けたい、と思った。

実世界

ロボット信念

拡張性

記号接地

ユーザ信念

共有

9

ロボット対話の三つの要件

対話処理の記号創発的アプローチ

L‐Core幼児のようにコミュニケーションを自律的に学習する手法

10

報道映像11

L‐Coreの信念システム12

共有信念関数Ψ(s,a) 個別確信度

ベクトル

動作-オブジェクト

関係行動

コンテキスト音声言語 動作物体

L‐Coreの信念システム

全体確信度関数 f(d)

発話と行動の生成と理解

13

L‐Core の機能

ロボットに向けられた発話の検出

状況依存的発話理解

確認発話生成

実世界に関する質問応答

役割反転模倣

自律的オンライン物体学習

音韻学習

物体概念学習

動作模倣学習

語彙学習

文法学習

語用法学習

14

3. 物体概念の学習

15

マルチモーダル情報の取得物体のマルチモーダルカテゴリゼーション

視覚情報・聴覚情報

SIFTSIFT

物体を観察 局所的な特徴量

211

ベクトル量子化500次元

ヒストグラム

wavewave

物体を振り音を取得フレームを

13次元MFCCに変換

211

ベクトル量子化50次元

ヒストグラム

視覚情報

聴覚情報

特徴の発生回数(Bag of features)

物体のマルチモーダルカテゴリゼーション

触覚情報

物体を掴む

触覚情報

角度変化量圧力

211

ベクトル量子化5次元

ヒストグラム

角度変化量物体がどれだけつぶれたか?柔らかさ

一定負荷時の圧力物体からの応力硬さ

ハンドの構成 取得した特徴量

Pressure Sensor × 4

Actuator ×4

物体のマルチモーダルカテゴリゼーション

マルチモーダルLDA• 文書 ⇒ 物体

• 単語 ⇒ マルチモーダル情報 w*• トピック ⇒ カテゴリ z• パラメタ推定することで物体の分類

が可能

Nvα θ z wv βv

wa βa

wh βh

Na

Nh

M

視覚

聴覚

触覚

α : ディリクリ事前分布

θ : 多項分布のパラメータ

z : カテゴリ

w* : モーダル情報

β* : 多項分布のパラメータ

物体のマルチモーダルカテゴリゼーション

丸、音無し

やわらかい….

丸、シャカシャカ鳴る、硬い….

カテゴリ1

(ぬいぐるみ)

カテゴリ2

(マラカス)

LDALDA

LDALDA

物体概念の構築

• 物体を分類することで、物体概念を構築

– 視覚・聴覚・触覚情報を様々な組み合わせで構築

• 人の分類と比較

– 人の分類:8人の被験者共通に現れた分類

• 40個のおもちゃ8カテゴリを使用

物体のマルチモーダルカテゴリゼーション

分類結果

Category ID1 2 3 4 5 6 7 8

5

10

15

20

25

30

35

40

CategoryID

1 2 3 4 5 6 7 8

5

10

15

20

25

30

35

40

人手による分類(正解) 視覚情報のみによる分類

マルチモーダルカテゴリゼーションCategory ID

1 2 3 4 5 6 7 8

5

10

15

20

25

30

35

40

マルチモーダル情報を

用いることで人手と同じ分類が可能

マルチモーダル情報を

用いることで人手と同じ分類が可能

Obj

ect I

D

Obj

ect I

D

Category ID1 2 3 4 5 6 7 8

5

10

15

20

25

30

35

40

視覚・聴覚

Obj

ect I

D

Obj

ect I

D

物体のマルチモーダルカテゴリゼーション

未観測情報の推定

未知物体のカテゴリ認識

カテゴリを通したクロスモーダル予測視覚情報から聴覚情報を予測

視覚情報から触覚情報を予測

聴覚と触覚情報から視覚情報を予測

・・・

視視

聴聴

触触

カテゴリ

カテゴリ

物体のマルチモーダルカテゴリゼーション

4. 動作の模倣学習

23

24

動作の模倣学習

課題:単語音声と物体操作の ペア から動詞とそ

の意味を学習する

難しさ: 非観測情報の推測参照点

座標系

*羽岡, 岩橋, “言語獲得のための参照点に…,” IEICE技研報告 PRMU2000‐105, pp.39‐46, 2000.

ランドマークと座標系の例25

飛び越えさせる

近づかせる乗せる

持ち上げる

参照点に依存したHMMによる動作の学習

26

HMM

0

0

動作「のせる」

出力正規分布

HMMは時系列信号の確率モデル

複数軌道を入力して一つのHMMを学習する

「のせる」の学習データ

参照点に依存したHMMによる軌道生成

軌道は、HMMの尤度(確率)が最も高くなるように生成する

入力: 動作ID, 参照点

出力: 最尤軌道

27

0

0

動作「のせる」

参照点

元の位置

参照点に依存したHMMによる動作とランドマークの認識

28

飛び越えさせる

近づかせる乗せる

持ち上げる

動作模倣学習デモビデオ29

5. 連続音声からの語彙の学習

30

ここは会議室の前です

問 題 点

1. 発話中のどこが場所名かわからない

2. 音声認識誤りが生じる

3.意味(指示対象の分布)がわからない

ロボットは単語の知識を持たない(音声は音素列として認識)

問 題 設 定発話と指示対象の共起情報から単語の音素系列とその意味を学習

ここおあかいでぃひつのまえ

かいでぃひつのまえ

32トラッキングの様子

早送り映像

自律移動ロボットを使用した場所名の学習

地図の生成

愛知万博での鬼ごっこデモ自律移動ロボットASKA

LRF

学習データ:90組の発話と位置座標

33

1 デル部屋

2 梅崎研秘書室

3 梅崎先生の部屋

4 小竹研究室

5 加藤研究室

6 徳丸研究室

7 インターンシップ推進室

8 専攻会議室

9 夢空間

10 コミュニケーションスペース

1 ここが X です

2 ここの名前は X だよ

3 この場所は X  っていうんだ

4 X  です

5 X  だよ

6 X  っていうんだ

7 ここが X 

8 ここの名前は X

9 この場所は X

(X は場所名を表す)

キーワード (10種類) 言いまわし (9種類)

自己位置推定で得られた位置座標と対応するキーワード

1 234

5

6

7

8

9

10

実験結果: 獲得されたキーワード

34

うめだきせえせえのへや(梅崎先生の部屋)

あめぜきてんせえのへあ

でれべや(デル部屋)

いんたあしいとぅすいしんしつ(インターンシップ推進室)

ゆめくうかん(夢空間)

かとおけんけえしつ(加藤研究室)

こみにけえしのすぺえす(コミュニケーションスペース)

めえせきせえせえのへや

めぜけんししょしつ(梅崎研秘書室)

おだけきんけえしつ(小竹研究室)

せんこおかいぎしつ(専攻会議室)

とくまでけんきえしつ(徳丸研究室)

80% の音素正解精度で単語を獲得

学習手法の概要

35

提案手法の概要

36

三種類の確率モデル(音響,文法,語意)を統合

発話a

対象o

文法音響 語意

単語列s

HMM

N‐gram

)|(log)(log)|(logmax

)|()()|(log),(log

sPsPsP

sPsPsPP

s

soa

oaoa

一般の音声認識

音素系列の統計量に基づき初期の単語セットを生成

少ない単語数でモデルの尤度が高くなるように単語の削除(MDL基準)と連結を繰り返す

語意のモデル

37

発話a

対象o

単語列s

単語列と対象の関係

HMM

N‐gram

単語と対象の関係を2次元正規分布でモデル化

n

iii woPr

1)|( ir : 意味の重み

)|,()|( wyxPwoP

yx

yxxy

y

y

x

x

xyxyyx

yxyx

))((2)()()1(2

1exp12

12

2

2

2

22

: 単語iw)|( soP

xx : の分散 xyxy : の相関係数yy : の分散

の平均xx :の平均yy :

語意のモデル

発話a

対象o

単語列s

単語列と対象の関係

HMM

N‐gram

38

P(x,y | w)

x

y

「うめざきけんひしょしつ」

「せんこうかいぎしつ」

学習の様子

39

1: ここのなまえわ/うめざえ/けえひ/しょ/すだよ

2: ここのなまえわ/うめざえけえひしょ/すざよ

4: ここのなまえわ/うめざえけえひしょ/すだよ

5: ここのなまえわ/うめざえけえひしょしつ/だよ

10: ここのなまえわ/うめざえっけんいひしょあしつ/だよ

モデル選択の回数

教示内容: 「 ここの名前は梅崎研秘書室だよ 」音素認識: こ こ の な ま あ う わ う め ざ え け ん し ょ お す ざ よ

90組の発話と位置座標のデータを用いてバッチ学習

モデル選択前258単語 → モデル選択後20単語

6. 共有信念に基づいた発話理解の学習

40

学習の様子41

共有信念関数Ψ(s,a) 個別確信度

ベクトル

動作-オブジェクト

関係行動

コンテキスト音声言語 動作物体

信念システム

全体確信度関数 f(d)

発話と行動の生成と理解

42

共有信念関数

43

1,

2

3

4

5

( , ) max log ( | ; , )

log ( | ; ) log ( | ; )

log ( | ; )

log ( , | ; )

log ( , | ; )

l z

T L

M

M

s a p s z L G

p t W L p l W L

p u W L

p t l W R

p t l q H

個別確信度ベクトル

MCE 学習 ML/MAP 学習

信念モジュール

音声言語 HMMs

物体画像Gaussians

動作 HMMs

動作‐オブジェクト関係Gaussians

行動のコンテキストMultinominal distribution

発話理解44

arg max ( , ) A

a s A

最適動作 入力音声

可能な動作

最適化の過程

0

20

40

60

80

100

120

140

1 2

系列5

系列4

系列3

系列2

系列1

音声認識結果:1st: カーミット 青い 箱 持ち上げて2nd:カーミット 青い 箱 のせて

発話:“カーミット 青い 箱 のせて”

行動コンテキスト

動作‐オブジェクト関係

動作

物体

音声言語

OptimalSecond

Ψ(s,a)

実験

96 発話‐シーン サンプルペア

詳細な発話と、曖昧で断片的な発話を含む

語彙

50物体に対して60 単語, 7動作に対して7単語

学習エピソード数の影響を評価

Leave‐one‐out cross validation

46

オンライン MCE 学習

‐0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

0 10 20 30 40 50 60 70 80 90

Local con

fiden

ce value

系列1系列2系列3系列4系列5系列6

Speech

Object

Motion‐object relationship

Motion

Holding

Previously moved

The number of episodes

47

個別

確信

度ベ

クト

エピソード数

理解率の改善

30

40

50

60

70

80

90

100

0 10 20 30 40 50 60 70 80 90

Und

erstanding

 rate (%

)

系列1

The number of episodes 

38%

48

エピソード数

音声

理解

率(%

共有信念に基づいた発話理解

“飛び越えさせて” “のせて”

49

共有信念に基づいた発話理解50

1 2 3

U

概念構造51

“小さいカーミット茶色い箱乗せて”

トラジェクタ : 1 : 小さい カーミット

ランドマーク : 3 : 茶色い 箱

軌道 : U : 乗せて

概念構造 Z

構文構造

[小さい カーミット] [茶色い 箱] [乗せて]

意味構造

トラジェクタ ランドマーク

軌道

格助詞を含む構文の概念構造52

意味構造

軌道

トラジェクタ ランドマーク

1 2 3

U

構文構造

[小さい カーミット を] [茶色い 箱 に] [乗せて]

“小さいカーミットを茶色い箱に乗せて”

物体_トラジェクタ : 1 : 小さい カーミット _を

物体_ランドマーク : 3 : 茶色い 箱 _に

軌道 : U : 乗せて

概念構造 Z

cv cv

10. まとめ

53

54

L‐Coreの技術的位置付け

SHRDLU(72)

有意味

固定された構造によってのみ解釈され他者の理解を参照しない

認知的理解経験に基づいて学習したり変化する,現在の経験を過去の経験に知的に関連付ける,などができる

完全な感情移入

互いのすべての動きや動機がわかる親しい者同士の理解

最新技術

言語理解のスペクトラム(Shank  85)

L‐Core(13)

RoboCup@Home 200955

RoboCup@Home 2010 優勝56

まとめ

L‐Coreユーザ信念と物理世界状況に依存した信念システム

認知的言語理解の達成

多機能統合に成功

頑健性、実用性の向上が必要

57

今後の展開

ユーザの行動習慣の学習

時間の概念 「きのう見せたペンを持ってきて」

ペット、フルーツ、道具などの、抽象度の高い意味を持つ語彙の学習

動作学習と言語学習の統一原理追求

58

59

新しいアプローチ

SHRDLU(72)

有意味

固定された構造によってのみ解釈され他者の理解を参照しない

認知的理解経験に基づいて学習したり変化する,現在の経験を過去の経験に知的に関連付ける,などができる

完全な感情移入

互いのすべての動きや動機がわかる親しい者同士の理解

最新技術

(ELIZA(66))

雑談の記号接地60