ユビキタス社会を支える トランスメディア実現のための...

31
ユユユユユユユユユユユ ユユユユユユユユユユユユユユ ユユユユユユユユユユ ユユ ユユ ユユユユユ ユユユユユユ 一,() ユユユユユユユユユユユユ ユユユ ユユユユユユユユ

description

ユビキタス社会を支える トランスメディア実現のための 情報記述に関する研究. ー 狭帯域包絡線情報を用いた      個人性・伝送路特性の記述 -. 末廣一美,山田雄大(福島研究室). 様々な違いから生まれるコミュニケーションのバリア. A. 文化,言語,身体能力の 違いによる壁(バリア). メディア変換. 手話. 言語. ?. 手話. 言語. メディア:意図を伝える媒体. 個人差・利用状況 に合った 適応的なメディア変換. システムによる現状把握 が必要. 人の情報伝送路モデル. 3. ー. 聴取者. 話者. 音声. 3. □. - PowerPoint PPT Presentation

Transcript of ユビキタス社会を支える トランスメディア実現のための...

ユビキタス社会を支えるトランスメディア実現のための

情報記述に関する研究

末廣一美,山田雄大(福島研究室)

ー 狭帯域包絡線情報を用いた     個人性・伝送路特性の記

述 -

様々な違いから生まれるコミュニケーションのバリア

文化,言語,身体能力の

違いによる壁(バリア)

A

個人差・利用状況に合った

適応的なメディア変換システムによる現状把握が必要

メディア:意図を伝える媒体

メディア変

換手話 言語

手話 言語

I 話者 聴取者I~

3

□ 3ー

L L~P

P~

ILF

LPF PLG

LIG

人の情報伝送路モデル

音声

 はメディアに依存しない →メディア間の相互変換が可能  ⇒情報源の持つ「特徴量」による「情報記述」

メディア間の相互変換

I

1)情報の特徴量を抽出することは可能?2)特徴量による「話者識別」「室種別類別」が可能?

)(IPILLP

FF )~

(~

PIPLLI

GG

-0.04-0.02

00.020.04

0 0.2 0.4 0.6 0.8 1time (s )

am

plit

ude

time (s )

-0.04-0.02

00.020.04

0 0.2 0.4 0.6 0.8

1

am

plit

ude )(

1nvb

)(1

neb

time (s )-30

-20

-10

0

0 0.2 0.4 0.6 0.8 1

ampl

itude

(dB)

)(1

ndb

39,3939,239,1

2,22,1

1,391,21,1

狭帯域包絡線情報を用いた話者識別

帯域を制限( 少ない特徴量で識

別 )↓

正解率の変化を調べる

音声時間波形を狭帯域に分割して包絡線を求める

人の聴覚メカニズム ⇒ 「狭帯域包絡線」を特徴量

0102030405060708090

100

1-39 6-31 6-14, 22-31Used Band Number

Acc

urac

y an

d R

atio

(%

)

fs 範囲 100% 25% 21%band 数 100% 67% 49%

88% 86% 81%C

全 39 帯域の正解率の比較

特徴量抽出,少ない特徴量でも識別可能重要帯域近傍調査:音響学会にて発表予定 (3 月 )

狭帯域包絡線情報を用いた室種別の類別

人の聴覚メカニズムは対象によって変化しない

室のインパルス応答の狭帯域包絡線を求める

狭帯域分割 ケプストラム 包絡線

)(nhrb )(qCrb )(qerb

39,3939,239,1

2,22,1

1,391,21,1

r

  の類似度を調べる ↓

狭帯域包絡線情報で室種別の類別が可能か

r

同一室で異なる計測位置での  の類似度r

00.10.20.30.40.50.60.70.80.9

1

AX

X ( Room type_Point Number )W1_1W1_2W1_3 W2_1W2_2W2_3 J_1 J_2 J_3

洋室 1 ( W1 )

洋室 2 ( W2 )

和室( J )

W1_1

W1_2

W1_3

AW2_1

W2_2W2_3

AJ_1J_2J_3

A

00.10.20.30.40.50.60.70.80.9

1

00.10.20.30.40.50.60.70.80.9

1

同一室では  の類似度が高い

r

W :洋室, J :和室

洋室 1 と和室の  の類似度r

W1_1 W1_2 W1_3 J_1 J_2 J_3X ( Room Type_Point Number )

11 WW

JJ

AX

種別の異なる室では類似度は低い

00.10.20.30.40.50.60.70.80.9

1:

W1_1W1_2W1_3

J_1J_2J_3

A

r容積の異なる洋室 1 と洋室 2 の  の類似度

W1_1 W1_2 W1_3 W2_1 W2_2 W2_3

W1_1W1_2W1_3W2_1W2_2W2_3

X ( Room Type_Point Number )

00.10.20.30.40.50.60.70.80.9

1A

X

A

容積の異なる同一種別の室でも類似度は高い

WW :

まとめ【目的】 適応的メディア制御に必要な 「システムによる個人性・利用状況の識別」【手法】 狭帯域包絡線情報を特徴量とした 話者識別・室種別の類別【結果】 ・狭帯域包絡線情報を特徴量として用いた   話者識別の有効性を再検証   室種別類別できる可能性を示唆 ・個人性調査により少ない特徴量で識別可能

特徴量抽出・特徴量による情報の識別は可能

I 話者 聴取者I~

3

□ 3ー

L L~P

P~

ILF

LPF PLG

LIG

人の情報伝送路モデル

音声

言語野レベル

物理変換レベル

音響事象レベル

但し,  は A から B への変換関数      は   の逆変換関数

ABF

BAG ABF

)(IPILLP

FF )~

(~

PIPLLI

GG

物理変換レベル

言語野レベル

I~

L~

P P~

L

I

人と人との情報伝達モデル

)()()( tctetv

)(tvb

)(tcb

)(teb

 

)(

)(

)( 2

1

tc

tc

tc

 

)(

)(

)( 2

1

te

te

te

time (ms)

amp.

(dB)

amp.

(dB)

amp.

(dB)

狭帯域包絡線間相関を用いた話者識別

021cc

021ee

200 400 600 800100012001400160018002000-1

-0.50

0.51

200 400 600 800100012001400160018002000-1

-0.50

0.51

200 400 600 800100012001400160018002000-1

-0.50

0.51

1/4 Oct. 分割した音声時間波形

ヒルベルト変換して求めた包絡線

dB 変換( -30dB で打ち切り)

狭帯域包絡線間相関係数

処理の流れ

b : 39 バンド

28.9Hz ~20749Hztime (s )

-0.04-0.02

00.020.04

0 0.2 0.4 0.6 0.8

1

am

plit

ude

-0.04-0.02

00.020.04

0 0.2 0.4 0.6 0.8 1time (s )

am

plit

ude

21 bb dd

)(1

nvb

)(1

neb

time (s )-30

-20

-10

0

0 0.2 0.4 0.6 0.8 1

ampl

itude

(dB)

)(1

ndb

time (s )

-0.04-0.02

00.020.04

0 0.2 0.4 0.6 0.8

1

-0.04-0.02

00.020.04

0 0.2 0.4 0.6 0.8 1time (s )

time (s )-30

-20

-10

0

0 0.2 0.4 0.6 0.8 1

)(2

nvb

)(2

neb

)(2

ndb

狭帯域包絡線間相関係数行列

39,3939,239,1

2,22,1

1,391,21,1

AX

帯域を制限↓

正解率の変化を調べ

正解率=識別候補が本人となった回数 / 識別条件数

識別候補:   の最大値

AX

A XDB 識別対象

Consonant

登録語と識別語の音素分布 V : Vowel 母音

N : Nasal 鼻音Fl : Fricative voiceless

摩擦音(無声)Fv : Fricative voiced

 摩擦音(有声)Sl : Stop voiceless

 閉鎖音(無声)Sv : Stop voiced

 閉鎖音(有声)Ca : Central      approximant       中央近接音Q : Geminate      consonant            促音-: Long vowel

 長音

+:登録語(個数は上段の数)× :識別語(個数は下段の数)

N Fl Fv Sl Sv Ca

V N’nnymmysshhhy f z j k ky t tsppychggyd dybbyry y r wQ-

o

e

u

i

a

Vow

el

11 0 11 11 0 0 22 11 11 11 0 1 10   8      8 3 10 5 0

27

0 11 15 10

77 0 0 11 0 11 0 0 8 22 10 12 8 0 9 9

0 03 3

22 22 0 0 22 0   031 19 35 2 1 17   11

08

1111

0 0   11   1111 20 0      8

11 0   0 11 0 19 21 0

11 0

11 9

0   11   0   014 26 9 2

3368

11     2711     11

分布に偏りがない

A

X

帯域増加と平均正解率

重要帯域:帯域番号6~14,22~315 10 15 20 25 30 35

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Stop band number

C

6

14

2231

02 39

帯域減少と平均正解率

5 10 15 20 25 30 35

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Starting band number

C 614

22 31

01 38

重要帯域:帯域番号6~14,22~

帯域を 1 帯域づつ増加 帯域を 1 帯域づつ減少

帯域増加と帯域減少の平均正解率

重要帯域:帯域番号6~14,22~31

5 10 15 20 25 30 35

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Starting band number

C 614

22 31

01 385 10 15 20 25 30 35

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Starting band number

C 614

22 31

01 385 10 15 20 25 30 35

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Stop band number

C

6

14

2231

02 395 10 15 20 25 30 35

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Stop band number

C

6

14

2231

02 39

変化した点が同じ

1.4The first formant F 1 (kHz)

0.6

0.8

1.0

1.41.5

1.82.02.22.5

3.0

3.84.0

3.4

0.2 0.5 1.0

/e/

/i/

/u/

/o/

/a/

第 2フォルマント周波数の

1091Hz ~ 4000Hz( 帯域番号 22 ~ 30)

結果の検討(高い周波数範囲の検討)帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )

The

sec

ond

form

ant

F 2

(kH

z)

前頭洞約 8cm3

上顎洞

蝶形骨洞

副鼻腔共振周波数約 3100Hz ~5400Hz( 帯域番号 28 ~ 31)

声帯音源基本周波数男性:約 100Hz ~ 150Hz女性:約 250Hz ~ 300Hz ( 帯域番号 6 ~ 14)

結果の検討(高い周波数範囲の検討)帯域番号 22 ~ 31 ( 1091Hz ~ 5187Hz )

副鼻腔共振周波数・声帯音源基本周波数

低い周波数範囲( 6 ~14 )

高い周波数範囲

0.5

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0.95

1

A E K M N SA SB SC TA TB Y

TalkerAll

Band No.

+ 1-39

× 6-31

□ 6-14  22-31

CA

データによるばらつきの検討

識別語に共通性

88%86%83%

正解率が高い識別語 (ネットサーフィン:上段 )

正解率が低い識別語 (水戸黄門:下段 )

鼻音の継続時間母音の第 2フォルマント

0 0.2 0.4 0.6 0.8 1-15

-10

-5

0

am

plit

ud

e (

dB

) ne n'to s a fi

0 0.2 0.4 0.6 0.8 1-15

-10

-5

0

time( )s

mi mo n'to ko

am

plit

ud

e (

dB

)

平均時間 (s)

ne 0.132

n’ 0.109

平均時間 (s)

mi 0.096

mo 0.095

n’ 0.072

time( )s

「 i 」「 e 」「 a 」

「 o 」

70%75%80%85%90%

29

30 31 32 33

C

70%75%80%85%90%

10 11 12 13 14 15 16

C

70%75%80%85%90%

18 19 20 21 22 23 24

C

V(Band Number)

V(Band Number) V(Band Number)

6 - V

6 - V , 22- 31

6 - 14 , V- 31

70%75%80%85%90%

4 5 6 7 8

C

V(Band Number)

V -31

重要帯域近傍での平均正解率の変化

重要帯域を 7 - 11 , 22 - 31 に絞り込める

まとめ

0

10

20

30

40

50

60

70

80

90

100

1-39 6-31 6-14 22-31

%

band number

fs 範囲 100% 25% 21%band数 100% 67% 49%

88% 86% 83%C

平均正解率

fs 範囲

band 数

C平均正解率

fs 範囲

band 数

C

声帯音源基本周波数 約 100 ~ 300Hz 帯域番号 6 ~ 14

第 2 フォルマント周波数・副鼻腔共振周波数 約 1100Hz ~ 5400Hz 帯域番号 22 ~ 31正解率のばらつき 鼻音の継続時間 母音の第 2フォルマントに関連 周波数範囲で 21% ,帯域数で 49% に

制限

BandNo.

Center Freq.(Hz)

BandNo.

Center Freq.(Hz)

1 28.9 21 9172 34.4 22 1090.53 40.9 23 1296.84 48.6 24 1542.25 57.3 25 18346 68.1 26 21817 81 27 2593.78 96.3 28 3084.49 114.6 29 366810 136.3 30 436211 162.1 31 5187.412 192.7 32 6168.813 229.2 33 733614 272.6 34 8724.115 324.2 35 1037516 385.5 36 1233817 458.5 37 1467218 545.2 38 1744819 648.4 39 2074920 771.1

1/4オクターブバンドの中心周波数

1/4オクターブバンド狭帯域フィルタ

102

103

104-40

-35

-30

-25

-20

-15

-10

-5

0

Freq. (Hz)

am

plit

ud

e (

dB

)

周波数分解:21.5Hzフィルタ長:約46ms

音声の狭帯域包絡線を 100ms で区切る

⇒声帯音源波 約 4周期が対象

狭帯域フィルタ: FIRフィルタ長さ: 2048サンプル

: 44100Hz fs

登録語

1 )青い空 ( aoisora )2 )映画鑑賞 ( eigaka n‘shou )3 )石田一成 ( ishida issei )4 )マイホーム計画 ( mai ho-mu keikaku )5 )無人島探索 ( muji n’tou tansaku )

1 語 / 約 1 秒1 人 / 約 5 語計 55 語(登録者全員共通)

識別語:登録語と異なる語

1 )松坂大輔 ( matsuzaka daisuke )2 )メール機能 ( me-ru kinou )3 )目から鱗 ( mekara uroko )4 )水戸黄門 ( mito koumo n‘ )5 )モーニング娘( mo-ni n’gu musume )6 )中山きんにくん ( nakayama kin‘niku n’ )7 )ネットサーフィン ( netto sa-fi n‘ )8 )猫死んじゃった ( neko shi n’jatta )9 )猫踏んじゃった ( neko fu n‘jatta )10 )日本沈没 ( niho n’ chi n‘botsu )11 )忍たま乱太郎 ( ni n’tama ra n‘tarou )12 )ノストラダムス ( nosutora damusu )13 )のんびり屋 ( no n’biriya )14 )上田晋也 ( ueda shi n‘ya )

1 語 / 約 1 秒1 人 / 約 8 語計 82 語(登録者により異なる)

話者を識別するシステムに用いた登録語・識別語

30%

40%

50%

60%

70%

80%

90%

100%

1 2 3 4 5 6 7 8 9 10 11

number of subjective word

corr

ecti

ve ju

dgem

ent r

atio

netto sa-fi n'nosutora damusu

niho n' chi n'botsu

mo-ni n'gu musume

mito koumo n'

ueda shi n'ya

matsuzaka daisuke

no n'biriya

neko fu n'jattamekara urokonakayama kin'niku n'neko shi n'jatta

帯域制限( 6 ~ 14 , 22 ~ 31 )時の識別語の正解率

1

0

2)()(

N

n

N

knj

bb envkV

N

knjN

kb

b ekVV 22/

1

)(2

1

2

)0(

)(~ kvb

jb env )(

)(~)( nvne bb

狭帯域分割した音声時間波形のスペクトル

片側スペクトルとなる     の解析的信号表現

)(nvb

狭帯域分割した音声時間波形の包絡線

ヒルベルト包絡線

包絡線抽出手法