講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」...

19
講義「情報理論」 第11回 通信路符号化の限界 (2) 情報理工学部門 情報知識ネットワーク研究室 喜田拓也 2019/7/24 講義資料

Transcript of 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」...

Page 1: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

講義「情報理論」

第11回 通信路符号化の限界(2)

情報理工学部門 情報知識ネットワーク研究室喜田拓也

2019/7/24講義資料

Page 2: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

通信路符号化の考え方 (おさらい)

通信路符号化は,入力される𝑞𝑞元記

号列を長さ 𝑘𝑘 毎に区切り,各ブロック

に長さ 𝑛𝑛 の等長な𝑟𝑟元記号列を割り

当てることで行う

符号語どうしが受信空間(𝐴𝐴𝑛𝑛)内で

十分に離れていれば,受信語に少し

の誤りが含まれていても,それに近い

符号語へと推定できる2

通信路符号化

通信路復号

通信路長さ 𝑘𝑘

𝒙𝒙 ∈ Σ𝑘𝑘

長さ 𝑘𝑘

𝒙𝒙′ ∈ Σ𝑘𝑘

長さ 𝑛𝑛

𝒘𝒘𝒙𝒙 ∈ 𝐴𝐴𝑛𝑛

長さ 𝑛𝑛

𝒘𝒘𝒙𝒙′ ∈ 𝐴𝐴𝑛𝑛

冗長性を付加

元の系列を推定符号語 受信語

Page 3: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

通信路容量 (おさらい)

記憶のない定常通信路の通信路容量(定理7.1より)

𝐶𝐶 = max𝑃𝑃𝑋𝑋∈𝐏𝐏

𝐼𝐼 𝑋𝑋;𝑌𝑌

(単位は,ビットあるいはビット/通信路記号)

2元対称通信路の通信路容量: 𝐶𝐶 = 1 −ℋ 𝑝𝑝

通信路に記憶がある場合の通信路容量

拡大情報源を考える.すなわち,長さ 𝑛𝑛の入力系列を𝑋𝑋𝑛𝑛,出力系列を𝑌𝑌𝑛𝑛とし,𝑃𝑃𝑋𝑋𝑛𝑛 を𝑋𝑋𝑛𝑛の確率分布とすれば,

𝐶𝐶 = lim𝑛𝑛→∞

max𝑃𝑃𝑋𝑋𝑛𝑛∈𝐏𝐏

𝑛𝑛

1𝑛𝑛𝐼𝐼 𝑋𝑋𝑛𝑛;𝑌𝑌𝑛𝑛 .

加法的2元通信路の通信路容量: 𝐶𝐶 = 1 − 𝐻𝐻 𝐸𝐸3

𝑝𝑝はビット誤り率

誤り源のエントロピー𝐻𝐻(𝐸𝐸) (ビット/記号)

Page 4: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

今日の内容

7.3 通信路符号化定理

7.4 通信システム全体としての情報伝達の限界

4

Page 5: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

通信路容量と情報速度の関係

通信路を使って伝送できる,1記号あたりの情報量の最大値は,

その通信路の通信路容量𝐶𝐶(ビット/記号)

ある通信路符号化により,通信路に入力される符号語の1記号

あたりの平均情報量は,その符号の情報速度𝑅𝑅(ビット/記号)

𝑅𝑅 を 𝐶𝐶 と比べて,どのくらい低くすれば良いだろうか?

それで,どのくらい信頼性を向上できるのか?5

情報速度𝑅𝑅で符号化

送信側𝐴𝐴={𝑎𝑎1,𝑎𝑎2, … ,𝑎𝑎𝑟𝑟}

𝑝𝑝𝑖𝑖=𝑃𝑃𝑋𝑋 𝑎𝑎𝑖𝑖

受信側𝐵𝐵={𝑏𝑏1,𝑏𝑏2, … , 𝑏𝑏𝑠𝑠}

𝑞𝑞𝑗𝑗=𝑃𝑃𝑌𝑌 𝑏𝑏𝑗𝑗

通信路(通信路容量𝐶𝐶)

𝑋𝑋 𝑌𝑌

𝑝𝑝𝑖𝑖𝑗𝑗 = 𝑃𝑃 𝑏𝑏𝑗𝑗 𝑎𝑎𝑖𝑖

情報速度𝑅𝑅 < 通信路容量𝐶𝐶 ならよさそうだ!

Page 6: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

通信路符号化定理(定理7.4)

6

定理7.4[通信路符号化定理]

通信路容量𝐶𝐶である通信路に対し,𝑅𝑅 < 𝐶𝐶 であれば,

情報速度𝑅𝑅の符号で復号誤り率がいくらでも小さいも

のが存在する.しかし,𝑅𝑅 > 𝐶𝐶 であれば,そのような

符号は存在しない.

通信路容量を超えない情報速度でなら,

いくらでも精度よく通信できるような符号法がある!!

※ Shannonの第2符号化定理とも呼ばれる

※でも具体的な符号の構成方法は分かっていない・・・

Page 7: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

通信路符号化定理の意味するところ

ビット誤り率が0.1である2元対称通信路があるとする.

この通信路の通信路容量𝐶𝐶は𝐶𝐶 = 1 −ℋ 0.1 ≈ 0.531 (ビット/記号).

2元記号列を長さ 𝑘𝑘のブロックに区切って,長さ𝑛𝑛の2元符号化する.

この符号の情報速度𝑅𝑅は𝑅𝑅 = 𝑘𝑘/𝑛𝑛となるが,定理より,

⁄𝑘𝑘 𝑛𝑛 < 0.531となるような(𝑛𝑛,𝑘𝑘)に対し,ほとんど誤りなく情報を伝達できる符号

が存在する.

つまり,元の系列の ⁄𝑛𝑛 𝑘𝑘 = ⁄1 0.531 ≈ 1.88倍の長さになるように

冗長性を付加すれば,10ビットに平均して1回起こるビット誤りを,

ほとんどすべて訂正することができるような符号が存在する.

7※実際の通信路のビット誤り率はもっと小さいので,必要な冗長性はごく小さい

Page 8: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

通信路符号化定理の証明(前半の概要)

定理は,符号の存在だけ保証している.

Shannonはこれをランダム符号化(random coding)を用いて証明.

ランダム符号化とは,受信空間から独立な無作為復元抽出を

𝑀𝑀回繰り返すことにより𝑀𝑀個の符号語を選ぶ符号化法である.

証明は,ランダム符号化によって作られる符号Cの復号誤り率

𝑃𝑃𝑒𝑒(C)の期待値𝐸𝐸C 𝑃𝑃𝑒𝑒 C を求め,情報速度𝑅𝑅と通信路容量𝐶𝐶に対して,𝑅𝑅 < 𝐶𝐶のとき符号長𝑛𝑛を𝑛𝑛 → ∞とすれば,𝐸𝐸C 𝑃𝑃𝑒𝑒 C → 0となることを示すことによる.

これが示されれば,復号誤り率が期待値以下となるような符号は

必ず一つは存在する.この事実から定理の前半は証明される.

※詳しくは教科書7.6節を参照

8

Page 9: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

通信路符号化定理の証明(後半)

情報速度が𝑅𝑅 > 𝐶𝐶の符号で,復号誤り率𝑃𝑃𝑒𝑒をいくらでも

小さくできるものが存在すると仮定する.

すると,実際に,𝑅𝑅にいくらでも近い速度で情報を伝達す

ることができる.

すなわち,通信路容量𝐶𝐶を超えた情報速度で情報を送

ることができることになる.

通信路容量の定義からこれは不可能である.

よって,そのような符号は存在しない.【証明終】

9

Page 10: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

ちょっと休憩

10

Page 11: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

もう一度,通信システムのモデル

エントロピー𝐻𝐻(𝑆𝑆)(ビット/情報源記号)の情報源𝑆𝑆,通信路容量𝐶𝐶(ビット/通信路記号)の通信路を考える

情報源から情報源記号が毎秒𝛼𝛼個発生し,通信路では毎秒𝛽𝛽個の

通信路記号が伝送されているとする. 11

𝛼𝛼記号/秒𝛽𝛽記号/秒

与えられた情報源と通信路に対しどれだけ良い通信ができるか?

𝐻𝐻(𝑆𝑆)

𝐶𝐶

Page 12: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

この通信システムで伝送できる限界は?

このとき,情報源から発生する秒あたりの情報量は,

𝓡𝓡 = 𝛼𝛼𝐻𝐻(𝑆𝑆) (ビット/秒).

一方,秒あたり通信路容量は

𝐂𝐂 = 𝛽𝛽𝐶𝐶 (ビット/秒).

したがって,

𝓡𝓡 < 𝐂𝐂ならば任意に小さい誤り率で通信することができる.しかし,

𝓡𝓡 > 𝐂𝐂

の場合は,ひずみが生じてしまう.12

Page 13: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

𝓡𝓡 > 𝐂𝐂の場合どのくらいひずむのか?

情報源𝑆𝑆の速度・ひずみ関数を𝑅𝑅(𝐷𝐷)(ビット/情報源記

号)とすると,平均ひずみが𝐷𝐷以下という条件の下で,秒

あたりの情報量を

𝓡𝓡 𝐷𝐷 = 𝛼𝛼𝑅𝑅 𝐷𝐷まで落とすことができる.

このとき,𝓡𝓡 𝐷𝐷∗ = 𝐂𝐂を満たす𝐷𝐷∗を考える.すると,𝐷𝐷∗より

も𝜀𝜀だけ多くの平均ひずみを許せば,情報速度

𝓡𝓡 𝐷𝐷∗+𝜀𝜀 < 𝓡𝓡 𝐷𝐷∗ = 𝐂𝐂の符号化を作ることができる.

すなわち,情報源𝑆𝑆からの情報を,𝐷𝐷∗に任意に近い平均

ひずみで送ることができる.13

Page 14: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

通信システム全体としての情報伝達の限界

14

定理7.6

情報速度𝓡𝓡(ビット/秒)で発生する情報を通信路容量𝐂𝐂(ビット/秒)の通信路を介して送るとき,

𝓡𝓡 < 𝐂𝐂

であれば,任意に小さい誤り率で情報を伝送できる.また,

𝓡𝓡 > 𝐂𝐂

であれば,情報源の速度・ひずみ関数が

𝓡𝓡 𝐷𝐷∗ = 𝐂𝐂 (ビット/秒)

を満たす𝐷𝐷∗に対し,𝐷𝐷∗に任意に近いひずみで情報を伝送できる

が,𝐷𝐷∗より小さい平均ひずみでは伝送できない.

Page 15: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

例題7.3

1, 0 を 0.2, 0.8 の確率で発生する記憶のない情報源の出力系列を,

ビット誤り率が0.1の2元対称通信路を通して送る.情報源は1秒に1

記号を発生し,通信路も1秒に1記号を伝送する.このとき,

𝓡𝓡 = ℋ 0.2 ≈ 0.7219 (ビット/秒),

𝐂𝐂 = 1 −ℋ 0.1 ≈ 0.5310 (ビット/秒).

𝓡𝓡 > 𝐂𝐂なので,ひずみなしには通報を送れない.

ひずみ測度として𝑑𝑑 𝑥𝑥,𝑦𝑦 = �0 ; 𝑥𝑥 = 𝑦𝑦1 ; 𝑥𝑥 ≠ 𝑦𝑦を用いる.

このとき,速度・ひずみ関数は右図の𝑝𝑝 = 0.2の場合となる.これより𝐷𝐷∗ = 0.0293が求まる.

∵ 𝛼𝛼𝑅𝑅 𝐷𝐷∗ = 𝐂𝐂 ⟹ 𝑅𝑅 𝐷𝐷∗ = 0.5310⟹ℋ 0.2 −ℋ 𝐷𝐷∗ = 0.5310⟹ℋ 𝐷𝐷∗ = 0.7219 − 0.5310 = 0.1909⟹ 𝐷𝐷∗ = ℋ−1 0.1909 = 0.0293 .

15

速度・ひずみ関数𝑅𝑅(𝐷𝐷)

p=0.5

p=0.2p =0.1

R(D

)

D0.0293

0.531

すなわち,𝛼𝛼 = 𝛽𝛽 = 1

Try 練習問題7.3

Page 16: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

今日のまとめ

通信路符号化定理

通信路符号化定理(Shannonの第2符号化定理)

ランダム符号化法による証明

符号語長が有限の場合の限界

信頼性関数

通信の限界

通信の理論的限界

次回

(具体的な)通信路符号化法について

16

Page 17: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

符号長𝑛𝑛が有限のときの𝑃𝑃𝑒𝑒の収束の速さ

符号長𝑛𝑛を無限大にすると,いくらでも復号誤り率を小さくできる.

𝑛𝑛が有限のとき,復号誤り率𝑃𝑃𝑒𝑒はどのように0に近づくだろうか?

17

定理7.5

記憶のない通信路に対し,ランダム符号化による符号長𝑛𝑛,情報速度𝑅𝑅の符号Cの復号誤り率𝑃𝑃𝑒𝑒の期待値𝐸𝐸C 𝑃𝑃𝑒𝑒(C) は,

𝐸𝐸C 𝑃𝑃𝑒𝑒(C) ≤ 2−𝑛𝑛𝐸𝐸𝑟𝑟 𝑅𝑅

を満たす.ただし,𝐸𝐸𝑟𝑟(𝑅𝑅) は次式で定義される.

𝐸𝐸𝑟𝑟 𝑅𝑅 = max𝑃𝑃𝑋𝑋,0≤𝜌𝜌≤1

𝐸𝐸0 𝜌𝜌, p -𝜌𝜌𝑅𝑅

ここに,𝑃𝑃𝑋𝑋は入力アルファベット上の分布であり,

𝐸𝐸0 𝜌𝜌,𝑝𝑝 = − log2 ∑𝑦𝑦∈𝐵𝐵 ∑𝑥𝑥∈𝐴𝐴 𝑃𝑃𝑋𝑋 𝑥𝑥 𝑃𝑃 𝑌𝑌 𝑋𝑋 𝑦𝑦 𝑥𝑥1

1+𝜌𝜌1+𝜌𝜌

である.

𝜌𝜌は冗長度

Gallager関数

ランダム符号化指数

Page 18: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

符号長𝑛𝑛,情報速度𝑅𝑅の最適な符号法は?

では,最も良い符号の収束速度はいくらなのか?

𝑃𝑃𝑒𝑒∗(𝑛𝑛,𝑅𝑅)を長さ 𝑛𝑛,情報速度 𝑅𝑅の符号の中での復号誤り率の最小

値とする.それを達成する符号の収束速度 𝐸𝐸 𝑅𝑅 は,

𝐸𝐸 𝑅𝑅 = lim𝑛𝑛→∞

⁄−log2 𝑃𝑃𝑒𝑒∗ 𝑛𝑛,𝑅𝑅 𝑛𝑛で与えられる.これは信頼度関数(reliability function)と呼ばれる.

しかし,そのような符号の実際的な構成方法は知られていない.LDPC(低密度パリティ符号): Robert G. Gallager (1963年)ターボ符号: C. Berrou, A. Glavieux, P. Thitimajshima (1993年)

信頼度関数を計算するのは,一般には難しい. 18

系7.1記憶のない通信路において,復号誤り率 𝑃𝑃𝑒𝑒が,

𝑃𝑃𝑒𝑒 ≤ 2−𝑛𝑛𝐸𝐸𝑟𝑟 𝑅𝑅

を満たす長さ 𝑛𝑛,情報速度 𝑅𝑅の符号が存在する.

限界に迫る符号化!

Page 19: 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」 第11回通信路符号化の限界(2) 情報理工学部門情報知識ネットワーク研究室

2元対称通信路に対する信頼度関数

𝑝𝑝 をビット誤り率とするとき,

𝑝𝑝1∗ = ⁄𝑝𝑝 𝑝𝑝 + 1 − 𝑝𝑝となる 𝑝𝑝1∗ を求め,𝑅𝑅0 = 1 −ℋ 𝑝𝑝1∗ と

おけば,0 ≤ 𝑅𝑅 ≤ 𝑅𝑅0 となる情報速度𝑅𝑅に対しては

𝐸𝐸 𝑅𝑅 = 1 − 𝑅𝑅 − 2 log2 𝑝𝑝 + 1 − 𝑝𝑝 .また,𝑅𝑅0 ≤ 𝑅𝑅 ≤ 𝐶𝐶 = 1 −ℋ 𝑝𝑝 となる𝑅𝑅 に

対しては,まず,

𝑅𝑅 = 1 −ℋ 𝑝𝑝∗

を満たす 𝑝𝑝∗ 𝑝𝑝 < 𝑝𝑝∗ < 𝑝𝑝1∗ を求め,

𝐸𝐸 𝑅𝑅 = 𝑝𝑝∗ log2𝑝𝑝∗

𝑝𝑝+ 1 − 𝑝𝑝∗ log2

1−𝑝𝑝∗

1−𝑝𝑝とすればよい.右図に,𝑝𝑝 = 0.01 のときの 𝐸𝐸(𝑅𝑅) を示す.

19

2元対称通信路の信頼度関数

𝐸𝐸(𝑅𝑅

)

𝑅𝑅

𝑝𝑝∗は𝑅𝑅の関数