情報科学概論 2回目

58
http://narayama.naist.jp/~kaji/lecture/ 1 情情情情情情 情情 情情情情情情情情情 「」 情情情情情 「」 情情情情情情情情情情情情情情情情情情情情情 情情情情情 情情情情 情情情情情情情情情情情情情情情情 情情情情情情情情 情情情情情情情情情情情情情情情 情情情情情情 情情情情情情情情情情情情情情情情情情 情情情情情情情情情情情情情情

description

情報科学概論 2回目. 「モノとしての情報」 「情報」を, 工学の対象物 として取り扱うための理論と技術 情報を測る 情報の量,情報伝達系の性能を数値として測る 確率論をベースに,人間の直観にあった定式化を行う 情報を伝える 情報をできるだけコンパクトに表現する 情報をできるだけ確実に伝える. 出欠確認・課題. 情報通信以外の分野で,情報理論の技術や考え方が 利用できる分野,技術,応用,ビジネスを考えよ 出席届兼用の用紙に記入,本講義終了時に提出 知識を問うのではなく,「発想」「着眼点」を評価します. 「ナルホド」「面白い」と思わせる回答を期待しています - PowerPoint PPT Presentation

Transcript of 情報科学概論 2回目

Page 1: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

1

情報科学概論 2回目

「モノとしての情報」「情報」を,工学の対象物として取り扱うための理論と技術

情報を測る情報の量,情報伝達系の性能を数値として測る確率論をベースに,人間の直観にあった定式化を行う

情報を伝える情報をできるだけコンパクトに表現する情報をできるだけ確実に伝える

Page 2: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

2

出欠確認・課題

情報通信以外の分野で,情報理論の技術や考え方が利用できる分野,技術,応用,ビジネスを考えよ

出席届兼用の用紙に記入,本講義終了時に提出

知識を問うのではなく,「発想」「着眼点」を評価します.「ナルホド」「面白い」と思わせる回答を期待しています

情報の学生に対する注意:今回の内容は「情報理論」のサブセット上記課題について,高いレベルの回答を期待します

Page 3: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

3

良い自動車を作りたい ...

時間や距離,燃料の量などを正確に計量できないと難しい

良い「情報システム」を作りたい ...

情報の量を測り,数値として表現することが必要

情報の「量」:人間の直観と乖離した定義では意味がない我々が漠然と考えている「情報量」にマッチする定義が必要

どういうときに「情報を得た」と考えるか?

第一部:「情報量」をどうとらえるか

Page 4: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

4

情報の獲得

情報を得る = 対象物に関する「不確かさ」が減少すること

昨日の野球の試合結果,何も知らないと,勝敗はわからない友人から「昨日の試合,勝てなかった」と聞いた(情報を得た)

情報を得る前:勝ち,負け,引き分けの3通り ... 不確かさ大情報を得た後:負け,引き分けの2通り ... 不確かさ小

「情報量 = 不確かさの減少量」とするのが自然「不確かさ」の定量化が先決

Page 5: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

5

情報源と通報

情報伝達のモデル:情報源で発生した事象を,通信路が伝達し,観測者が受信

事象を表現する具体的な「モノ」 ... 通報と呼ぶ「通報 ≠ 情報」である点に注意

情報源の統計的性質は既知,実際に発生する通報は未知通信路は,正確に通報を伝達しないかもしれない

通信路情報源

e ?

e’e

観測者

Page 6: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

6

情報伝達の例

情報伝達の多くは,概念上,前スライドのモデルとして表現可能

「イベント」 – 「通信路の出力」:「野球の試合結果」 – 「友人からの速報メール」「プログラムの出力」 – 「ファイルからの読み出しデータ」「明日の天気」 – 「天気予報」「画像データ」 – 「JPEG圧縮データ」「敵軍隊の指令文書」 – 「盗聴で得た暗号文」

「イベント」「通信路」という言葉にとらわれ過ぎる必要はない

6

Page 7: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

7

情報源の分類

情報源の分類アナログ情報源 vs. デジタル情報源

通報がアナログ的か,デジタル的か

記憶のある情報源 vs. 記憶のない情報源発生する通報に相関があるか,独立しているか

定常情報源 vs. 非定常情報源統計的な振舞いが,時間に対して不変か,そうでないか

Page 8: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

8

定常で記憶のない,デジタル情報源通報の集合は離散集合により与えられる発生する通報は,以前の通報とは独立して決定される時刻をシフトしても,通報の発生確率は変化しないサイコロの目やコイン投げの結果を想定すれば良い

現実世界では,記憶のある情報源もかなり多い人間が使う自然言語画像,音声等のデータ

...基本的に,本講義では(最初に少ししか)扱わない

典型的な情報源

Page 9: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

9

情報源のエントロピー

S: 以下の通報発生確率を持つ(記憶の無い定常)情報源

a1

p1

a2

p2

aM

pM

...

...通報確率

情報源 S の一次エントロピー (first-order entropy):

M

iii ppSH

121 log)( ( ビット , bit )

例1:コイン投げのエントロピー:表,裏とも確率 1/2...M = 2,

p1=p2=0.5 1)2/1log(5.0log5.05.0log5.0)(1 SH ビット

この項は非負⇒エントロピーは常に0以上

M 元情報源

Page 10: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

10

701.002.0log02.0...02.0log02.09.0log9.0)(1 SH

エントロピーの計算例

例2:サイコロの目 ... コイン投げより,結果予想は難しいはず

11/6

通報確率

21/6

31/6

41/6

51/6

61/6

585.261

log61

61

log61

61

log61

)(1 SH ビット

例3:イカサマ賭博のサイコロ1

0.9通報確率

20.02

30.02

40.02

50.02

60.02

ビット

一個の指標で,予測の難しさの大小関係を定義可能

Page 11: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

11

記憶のある情報源

記憶のある情報源は多種多様比較的シンプルなモデルとして,マルコフ情報源がある

0 1

0/0.9 1/0.1

0/0.4 1/0.6

状態間を遷移しながら通報発生直観的には,「双六」のイメージ

スタート,ゴールはない十分時間が経過した後(定常状態)での振舞いを議論することが多い

上の例の場合,十分な時間が経過すると ...80% の確率で状態 “ 0” , 20% の確率で状態 “ 1” を取っているはず(実際は,漸化式を立てて計算を行う)

通報 / 確率

Page 12: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

12

マルコフ情報源のエントロピー

80% の確率で状態 “ 0”

20% の確率で状態 “ 1”0 1

0/0.9 1/0.1

0/0.4 1/0.6

0 が発生する確率 ... 0.8 0.9 + 0.2 0.4 = 0.801 が発生する確率 ... 0.8 0.1 + 0.2 0.6 = 0.20⇒ エントロピーは – 0.8log 0.8 – 0.2log 0.2 = 0.722 bit

通報を「ブロック化」すると,興味深い振舞いが見られる(情報源からの通報を複数個まとめて,一個の通報とみなす)

Page 13: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

13

ブロック化の例:記憶のない場合

コイン投げ2回分の通報を,1ブロックにまとめる場合 ...

通報は { 表表 , 表裏,裏表,裏裏 } の4通り表表1/4

通報確率

表裏1/4

裏表1/4

裏裏1/4

H1(S2)=log 4 = 2 ビット ... 結果予想は一個の場合の2倍難しいH1(S2) は, S の通報2個分のエントロピー

⇒ S の通報1個分に換算すると, H1(S2)/2 = 1 ビット記憶のない情報源では,ブロック化してもエントロピーは変化なしn 個まとめて予想する難しさ = n× ( 1 個だけ予想する難しさ)

Page 14: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

14

マルコフ情報源とブロック化

80% の確率で状態 “ 0”

20% の確率で状態 “ 1”0 1

0/0.9 1/0.1

0/0.4 1/0.6

00 が発生する確率 ... 0.8 0.9 0.9 + 0.2 0.4 0.9 = 0.7201 が発生する確率 ... 0.8 0.9 0.1 + 0.2 0.4 0.1 = 0.0810 が発生する確率 ... 0.8 0.1 0.4 + 0.2 0.6 0.4 = 0.0811 が発生する確率 ... 0.8 0.1 0.6 + 0.2 0.6 0.6 = 0.12⇒ エントロピーは 1.2914bit... 一文字あたりでは 0.6457 bit

ブロック化しないときは 0.722bit だった⇒ ブロック化により,エントロピーが小さくなった

Page 15: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

15

一般に,記憶のある情報源では ...

H1(Sn) / n (通報一個あたりのエントロピー)は,単調減少する

H1(Sn) / n は,ある一定の値 H(S) に収束していく

記憶のある情報源のエントロピー

n

H1(Sn) / n

H(S)

H1(Sn) / n < H1(S)

n 個まとめて予想する難しさ < n × ( 1 個だけ予想する難しさ)

ある程度,通報の出現パターンが「読める」自然語だと,“ qu” は高頻出,“ qz” は,まず出現しない

無記憶の場合より,振舞いが予想しやすい ⇒ エントロピー小

Page 16: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

16

第一部:折り返し地点

ここまでは,「情報源の予測の難しさ」の定量化

ここからは「情報量」の定義

Page 17: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

17

通報の持つ情報量

阪神タイガースの試合があったが,結果をまだ知らない阪神が勝つ確率,負ける確率,引き分ける確率は,全部 1/3

巨人ファンの友人Aからメイル:「阪神は負けなかった」友人Aのメイルに含まれる情報の「量」は?

メイルを受け取る前:結果に関する不確かさが大きいP( 勝 ) = 1/3. P( 引 ) = 1/3, P( 負 ) = 1/3

メイルを受け取った後:結果に関する不確かさが小さくなった

P( 勝 ) = 1/2. P( 引 ) = 1/2, P( 負 ) = 0

「不確かさの減少量 = 情報量」と定義したい

Page 18: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

18

野球の試合の例では

メイルを受け取る前: P( 勝 ) = 1/3. P( 引 ) = 1/3, P( 負 ) = 1/3

エントロピーは

585.13log31

log31

31

log31

31

log31

メイルを受け取った後: P( 勝 ) = 1/2. P( 引 ) = 1/2, P( 負 ) = 0

条件付きエントロピーは 12log021

log21

21

log21

「阪神は負けなかった」というメイルに含まれる情報量:1.585 – 1 = 0.585 ビット

Page 19: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

19

情報量とエントロピー

離れたところにある情報源 S の出力(通報)を知りたい通報の確率分布はわかるが,何が実際出力されたか知りたいS の出力に関し,なんらかの「ヒント」を入手したとするヒントにより,通報の確率分布が,別の情報源 S’ の確率分布と一致することがわかったとする

このとき,ヒント(通報)がもたらした情報量 ( information) は

H(S) – H(S’) ビット

Page 20: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

20

気まぐれな友人の場合( case 1 )

右図の行動を取る友人Bが「言いたくない」と言った時の情報量は?

勝ち

引分

負け

「勝ったよ」

「言いたくない」

「負けたよ」

0.5

0.5

0.5

0.5

1.0

P(言いたくない ) = 2/3

P( 勝ち,言いたくない ) = 1/6 P( 勝ち | 言いたくない ) = 1/4

P( 引分,言いたくない ) = 1/3 P( 引分 | 言いたくない ) = 1/2

P( 負け,言いたくない ) = 1/6 P( 負け | 言いたくない ) = 1/4

「言いたくない」と言っているときのエントロピーは5.1

41

log41

21

log21

41

log41

情報量は 1.585 – 1.5 = 0.085 ビット(友人Aのメイル: 0.585 ビット)

Page 21: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

21

気まぐれな友人の場合( case 2 )

友人Bが「勝ったよ」と言ったときの情報量は?

勝ち

引分

負け

「勝ったよ」

「言いたくない」

「負けたよ」

0.5

0.5

0.5

0.5

1.0

P( 勝ち | 勝ったよ ) = 1

P( 引分 | 勝ったよ ) = 0

P( 負け | 勝ったよ ) = 0

P( 勝ったよ ) = 1/6 P( 勝ち,勝ったよ ) = 1/6

エントロピーは0になる(結果を正確に知ることができる)

情報量は 1.585 – 0 = 1.585 ビット(友人Aのメイル: 0.585 ビット)

友人Aと友人B,どちらが「頼りになる」友人か?... 個々の通報の情報量だけを見ていたのではわからない

Page 22: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

22

情報量の「平均」

友人Bの行動:1/6 の確率で「勝ったよ」 ... 情報量 1.585 ビット2/3 の確率で「言いたくない」 ... 情報量 0.085 ビット1/6 の確率で「負けたよ」 ... 情報量 1.585 ビット

平均すると 1.585 1/6 + 0.085 2/3 +1.585 1/6 = 0.585 ビット

友人Aの行動:

勝ち

引分

負け

「負けなかった」

「負けたよ」

2/3 の確率で「負けなかった」 ... 情報量 0.585 ビット1/3 の確率で「負けたよ」 ... 情報量 1.585ビット平均すると 0.585 2/3 + 1.585 1/3 = 0.918ビット

平均すると,友人Aのほうが0.333 ビット多くの情報をくれる

Page 23: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

23

相互情報量

友人A,友人Bは,異なる特性を持った通信路と考えられる

通信路の入力確率変数を X ,出力確率変数を Y とする

X と Y の相互情報量 I(X; Y) :Y の各値が持つ( X に関する)情報量の加重平均

前ページでは「試合結果と友人の振舞いの相互情報量」を計算

「負けなかった」

「言いたくない」

X Y

Page 24: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

24

相互情報量の意味

相互情報量:その通信路が,どれだけの情報を伝達しているかの指標システムとして通信路を実現することを考えると,個々の通報の情報量より,相互情報量にこそ着目すべき

同じ通信路でも,入力分布が変わると,相互情報量も変わる同じ友人Aでも ...

勝ち,引分,負けが 1/3 のチーム ...相互情報量は 0.918 ビット勝ち,負けが 1/2 のチーム ...相互情報量は 1 ビット

相互情報量の取り得る最大値 ⇒ 通信路容量という

Page 25: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

25

相互情報量の計算例(1)

天気予報:天気についての情報を与える,やや不正確な通信路

例: 100 日間の実際の天気 (X) と天気予報 (Y) の統計:

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

実際の天気が晴だったのは 57 日, PX(晴 )=0.57

予報が晴といったのは 60 日, PY (雨) =0.60

天気 X, 予報 Y とも晴だったのは 45 日, PX,Y(晴,晴) =0.45

X Y現実

予報

Page 26: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

26

相互情報量の計算例(2)

天気予報が当たる確率= PX,Y (晴,晴)+ PX,Y (雨,雨) =0.73

この予報と友人Aのメイル,どちらが「高性能」?天気のエントロピー:

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

986.043.0log43.057.0log57.0)( XH ビット

Page 27: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

27

相互情報量の計算例(3)

天気予報 Y が晴のとき:本当に晴れる確率は 0.45/0.60 = 0.75 ,雨の確率は 0.25

「晴」という予報を聞いた後の条件付エントロピーはH(X | 晴 ) = – 0.75log0.75 – 0.25log0.25 = 0.811 ビット「晴」という天気予報の持つ情報量は 0.986 – 0.811 = 0.175

天気予報 Y が雨のとき:本当に雨の確率は 0.28/0.40 = 0.70 ,晴の確率は 0.30

「雨」という予報を聞いた後の条件付エントロピーはH(X | 雨 ) = – 0.30log0.30 – 0.70log0.70 = 0.881 ビット「雨」という天気予報の持つ情報量は 0.986 – 0.881 = 0.105

加重平均をとると 0.60·0.175 + 0.40·0.105 = 0.147 ビット

Page 28: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

28

相互情報量と当たる確率

情報の「量」は,B社予報のほうが大きい

X

晴451560

雨122840

晴雨

P(Y)×100

Y

P(X) ×1005743

A社:まぁまぁ当たる予報

X

晴0

4343

雨57

057

晴雨

P(Y)×100

Y

P(X) ×1005743

B社:絶対はずれる予報

73%0.147 ビット

0%0.986 ビット

Page 29: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

29

第一部のまとめ

エントロピーの概念を導入予測の難しさを定量化したもの

情報量,相互情報量を定義エントロピーの減少量として定式化システムの評価には,相互情報量の概念が有用

Page 30: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

30

休憩

Page 31: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

31

第二部:情報の表現方法を考える

情報は,実体を持たない抽象的なもの情報の容器である「通報」に,具体的表現を与える必要がある通報の表現方法 ... かなり大きな自由度がある⇒ 「良い」表現方法と「良くない」表現方法がある

「良い」表現方法とは?情報の蓄積を考えると ... できるだけコンパクトであること情報の伝達を考えると ... できるだけ誤りに強いこと

相反する二つの方向性の間で,バランスを取ることが大切技術としては,それぞれ独立したものとして扱うことが得策

Page 32: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

32

第二部前半:情報のコンパクトな表現について3種類の通報 A, B, C を, 0 と 1 だけを用いて符号化する

ABC

011

符号化すると, B と C が区別できなくなる(一意に復号できない)⇒ すべてを 1 ビットで表現することは不可能

ABC

001011

一意性は保証されるが,一工夫足りない ...

ABC

01011

符号語の長さが揃っていないが ...情報をコンパクトには表現できる

符号語通報(ただし,区切り記号は使わない)

Page 33: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

33

様々な符号化法

ABC

01011

いまのところベストの符号化法

ABC

00111

上の例と似ているが,一意性が保証されないB → 11CC → 11

ABC

00101

一意性は保証されるが,取り扱いが面倒10000000 → BAAA1000000 → CAAA

最後の一文字を見るまで,復号を行えない

最初の方式は,一意的で,即時に復号処理ができる

Page 34: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

34

様々な符号化法(続)

ABC

01011

いまのところベストの符号化法

ABC

11100

本質的に,上と同じ?

C1

C2

通報の出現確率に偏りがある場合を考える

P(A) = 0.5P(B) = 0.4P(C) = 0.1

C1 :一通報を表現する符号長の平均は0.5 ×1 + 0.4×2 + 0.1×2 = 1.5 ビット

C2 :一通報を表現する符号長の平均は0.5 ×2 + 0.4×2 + 0.1×1 = 1.9 ビット

C1 のほうが C2 よりもコンパクトな表現

Page 35: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

35

符号に求められる性質

良い符号の三条件:一意に復号可能であること瞬時に復号可能であること平均符号長ができるだけ短いこと

理論的に最適な解法が知られている ⇒ ハフマン符号化

Page 36: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

36

ハフマン符号

1.各通報に対して節点を準備し,その発生確率を付与する節点はそれぞれ,大きさ1の木であると考える

2.木の中で発生確率最小のものを2つ選出し,以下を行う1. 2つの木の根節点を子とするような,新しい根節点を

作る2.新しい根節点と古い根節点を結ぶ枝に, 0, 1 をラベ

ル付け3.新しい根節点に,2つの木の発生確率の和を与える

3. すべての節点がつながるまで, 2 の操作を繰り返す

Page 37: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

37

ハフマン符号化法

A0.60

B0.25

C0.10

D0.05

記号確率

0.60A

0.10C

0.05D

0.25B

0.15

0.60A

0.10C

0.05D

0.25B

0.60A

0.10C

0.05D

0.25B

0.40

0.60A

0.10C

0.05D

0.25B

1.00

Page 38: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

38

練習問題

ABCDE

確率0.20.10.30.30.1

符号語ABCDEF

確率0.30.20.20.10.10.1

符号語

等長符号の場合と比べ,平均符号長が小さくなっている

Page 39: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

39

ハフマン符号とブロック化

ハフマン符号:得られる符号は,一意かつ瞬時に復号可能通報一個を符号語一個に符号化する方式としては,最も効率が良い(最もコンパクト,平均符号長が小さい)

複数の通報を一まとめにして(ブロック化して)符号化すれば,

さらに効率が良くなることが知られている

Page 40: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

40

ブロックハフマン符号

2つの通報をまとめて(ブロック化して)符号化する

ABC

0.60.30.1

01011

記号 確率 符号語AAABACBABBBCCACBCC

0.360.180.060.180.090.030.060.030.01

010011001011110111101101111110111111

記号 確率 符号語

平均符号長 1.4 ビット

平均符号長 2.67 ビット⇒ 一記号あたり 1.335 ビット

Page 41: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

41

ブロック化と性能の限界

一般に,ブロック長を大きくすると,通報一記号あたりの平均符号長は減少する

どこまで減少するか?対象となっている情報源のエントロピーに漸近する

ブロック長

エントロピー

平均符号長(一記号あたり)

Page 42: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

42

情報源符号化定理

任意の符号について,平均符号長は必ず L H1(S) となる

データ圧縮における「越えられない壁」平均符号長が L < H1(S) + 1 となる符号を構成できる

ハフマン符号は,理論限界を達成する符号化方式

ブロック長

エントロピー

平均符号長(一記号あたり)

ハフマン符号よりも良い方法を工夫すれば,エントロピーの壁を乗り越えられる?

Page 43: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

43

ユニバーサル符号化,非可逆符号化

ハフマン符号化 ... 情報源記号の確率分布が,事前に必要確率分布が(正確には)わからないケースも多い⇒ ユニバーサル符号化法

どのような情報源に対しても,そこそこ良い性能を発揮LZ77法 (lha, gzip, zoo, zip etc.)

LZ78法 (compress, stuffit etc.)

LZW法 (GIF, TIFF 等の画像フォーマット )

音声や画像等の情報 ...

細部まで正確に再現できなくても,実害なし再現性を一部犠牲にして,高い圧縮率を⇒非可逆符号化

Page 44: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

44

第二部:折り返し地点

ここまでは,「情報をコンパクトに表現する」おはなし

ここからは「誤った情報を訂正する」おはなし

Page 45: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

45

通信路符号化

偶発的に発生する誤りから,情報を保護したい通信路において発生するノイズから情報を守るCD-ROM が傷ついても,中のデータは読めるようにする

基本的な考え方:誤りを検出し,訂正するための「余分な情報」を追加する

Page 46: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

46

パリティ検査符号

パリティ記号の付加:0と1で表現されたひとまとまりのデータの中に,1が偶数個あれば0を1が奇数個あれば1を

データの最後にくっつける操作

パリティ記号の付加されたデータは,偶数個の1を含む(偶パリティ符号)1の個数が奇数個

⇒ 誤りの影響を受けている

サーバ用メモリ等で利用されている

01001

01011

010010

010111

101001誤りを含む

Page 47: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

47

誤りの検出から訂正へ

偶パリティ符号そのものには,誤り訂正能力がない偶パリティ符号を組み合わせれば,誤り訂正可能に

例:4ビットの情報を保護したい4ビットを長方形状に並べる水平方向,垂直方向にパリティ記号(5ビット)を付加

0 1

1 1

1

0

1 0 1

保護したい4ビット

パリティ記号5ビット (9, 4) 符号

長さ9ビット内4ビットが本来の情報符号化率 4/9

0111 011110101

Page 48: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

48

誤り訂正の原理

前出の (9,4) 符号 ⇒ どの行・列とも,1は偶数個のはず1ビットの誤りが発生すると…誤りを含む行,列だけ,1が奇数個になる受信者は,誤りの発生位置を特定することが可能誤りは,異常のある行・列の交点に存在するはず

0 1

1 1

1

0

1 0 1

正常(誤り無し)

0 1

0 1

1

0

1 0 1

異常(誤りあり)

Page 49: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

49

一般的な線形符号へ

前出の (9,4) 符号 ⇒ 行単位,列単位でパリティ記号を計算二次元的な行,列にこだわる必要はない斜めにたどる,途中で曲げる,スポット的に拾う etc…

データビットの任意の組合せからパリティ記号を計算可能組み合わせ方により,符号の性能が変化する

線形符号:データビットの部分集合からパリティ記号を定義する符号

いかにして良い組み合わせ方を探すか

⇒ 符号設計者の腕の見せ所

Page 50: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

50

ハミング符号

代表的な線形符号符号語中に発生する1ビットの誤りを訂正可能非常に効率が良い(完全符号)

0 1

1 110

0

0111 0111100

0 1

1 1

1

0

1 0 1

0111 011110101

(7,4)符号効率 4/7

(9,4)符号効率 4/9

(どちらも,より大規模の符号も構成可能)

Page 51: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

51

生成行列

線形符号データビットの部分集合から,パリティ記号を定義パリティ記号は,いくつかのデータビットの和となる

p1

p3

p2

x1 x2

x3 x4 p3 = x1 x2 x3+ +

p1 = x2 x3+ x4+

p2 = x1 x3+ x4+

p3x1 x2 x3 p1 p2x4( ) x1 x2 x3 x4( )=

1000011010010100101110001110 生成行列

( + は排他的論理和)

符号化操作 = データビットと生成行列の掛け算

Page 52: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

52

検査行列

p3 = x1 x2 x3+ +

p1 = x2 x3+ x4+

p2 = x1 x3+ x4+

p3 = 0x1 x2 x3+ +

p1 = 0x2 x3+ x4+

p2 = 0x1 x3+ x4+

+

+

+

検査行列

011110010110101110001

p3

x1x2x3

p1p2

x4

000

=

誤り検出 = 受信語と検査行列の掛け算およびゼロテスト

符号語を検査行列にかけるとゼロベクトルになるゼロベクトルにならなければ,誤りが含まれる

Page 53: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

53

線形符号の特徴

符号化,誤りの検出,訂正とも,行列演算により実行可能行列演算 ⇒ 単純な組合せ回路だけで実現可能

⇒ 高速に動作させるのに有利

規模の大きな線形符号巨大な行列に対する演算が必要となる組合せ回路の面積増大 ⇒ 遅延,消費電力,設計困難スケーラビリティが悪い

もっと扱いやすい線形符号は?

Page 54: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

54

巡回符号

符号化,復号を,シフトレジスタで実現できる線形符号

一般の線形符号に比べ,実装面で有利シフトレジスタ利用による配線の簡単化符号化処理と復号処理で,回路の一部共有化が可能

代表的な巡回符号:BCH符号Reed-Solomon符号:

多元符号(バイト単位での取り扱い等も容易)CD, DVD等でも採用

Page 55: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

55

符号化装置を,有限状態機械として実現する方式

最尤復号が,比較的効率よく行える(ビタビアルゴリズム)

統計的に,最も信頼度の高い復号法

軟判定復号の実現も容易復号精度を上げる技術受信値の信頼度を,0と1の二値でなく,より多段階で表現

多くの通信方式にて,畳込み符号が実際に用いられている

畳込み符号

Page 56: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

56

誤り訂正符号の応用

二次元バーコードコード面の汚損による誤りが起こりうるReed-Solomon 符号の利用により,耐性向上

地上波デジタル放送畳込み符号と Reed-Solomon 符号の二重符号化を利用

数独パズル周辺の制約条件から,欠落情報を復元情報理論応用ではないが,共通点が多い

Page 57: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

57

本日のまとめ

第一部:情報を測る情報の量,情報伝達系の性能を数値として測る確率論をベースに,人間の直観にあった定式化を行う

第二部:情報を伝える情報をできるだけコンパクトに表現する情報をできるだけ確実に伝える

「情報理論」の簡単な概論デジタル情報システムの重要な基盤コンピュータ関係以外への貢献も

Claude E. Shannon1916-2001

Page 58: 情報科学概論 2回目

http://narayama.naist.jp/~kaji/lecture/

58

出欠確認・課題

情報・通信以外の分野で,情報理論の技術や考え方が利用できる分野,技術を考えよ