情報リテラシ第一 情報セキュリティと情報倫理...情報倫理とセキュリティ クイックガイド 東工大のグイドへのリンク ウィキペディア
講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」...
Transcript of 講義「情報理論」 › ~kida › lecture › IT_11.pdf講義「情報理論」...
講義「情報理論」
第11回 通信路符号化の限界(2)
情報理工学部門 情報知識ネットワーク研究室喜田拓也
2019/7/24講義資料
通信路符号化の考え方 (おさらい)
通信路符号化は,入力される𝑞𝑞元記
号列を長さ 𝑘𝑘 毎に区切り,各ブロック
に長さ 𝑛𝑛 の等長な𝑟𝑟元記号列を割り
当てることで行う
符号語どうしが受信空間(𝐴𝐴𝑛𝑛)内で
十分に離れていれば,受信語に少し
の誤りが含まれていても,それに近い
符号語へと推定できる2
通信路符号化
通信路復号
通信路長さ 𝑘𝑘
𝒙𝒙 ∈ Σ𝑘𝑘
長さ 𝑘𝑘
𝒙𝒙′ ∈ Σ𝑘𝑘
長さ 𝑛𝑛
𝒘𝒘𝒙𝒙 ∈ 𝐴𝐴𝑛𝑛
長さ 𝑛𝑛
𝒘𝒘𝒙𝒙′ ∈ 𝐴𝐴𝑛𝑛
冗長性を付加
元の系列を推定符号語 受信語
通信路容量 (おさらい)
記憶のない定常通信路の通信路容量(定理7.1より)
𝐶𝐶 = max𝑃𝑃𝑋𝑋∈𝐏𝐏
𝐼𝐼 𝑋𝑋;𝑌𝑌
(単位は,ビットあるいはビット/通信路記号)
2元対称通信路の通信路容量: 𝐶𝐶 = 1 −ℋ 𝑝𝑝
通信路に記憶がある場合の通信路容量
拡大情報源を考える.すなわち,長さ 𝑛𝑛の入力系列を𝑋𝑋𝑛𝑛,出力系列を𝑌𝑌𝑛𝑛とし,𝑃𝑃𝑋𝑋𝑛𝑛 を𝑋𝑋𝑛𝑛の確率分布とすれば,
𝐶𝐶 = lim𝑛𝑛→∞
max𝑃𝑃𝑋𝑋𝑛𝑛∈𝐏𝐏
𝑛𝑛
1𝑛𝑛𝐼𝐼 𝑋𝑋𝑛𝑛;𝑌𝑌𝑛𝑛 .
加法的2元通信路の通信路容量: 𝐶𝐶 = 1 − 𝐻𝐻 𝐸𝐸3
𝑝𝑝はビット誤り率
誤り源のエントロピー𝐻𝐻(𝐸𝐸) (ビット/記号)
今日の内容
7.3 通信路符号化定理
7.4 通信システム全体としての情報伝達の限界
4
通信路容量と情報速度の関係
通信路を使って伝送できる,1記号あたりの情報量の最大値は,
その通信路の通信路容量𝐶𝐶(ビット/記号)
ある通信路符号化により,通信路に入力される符号語の1記号
あたりの平均情報量は,その符号の情報速度𝑅𝑅(ビット/記号)
𝑅𝑅 を 𝐶𝐶 と比べて,どのくらい低くすれば良いだろうか?
それで,どのくらい信頼性を向上できるのか?5
情報速度𝑅𝑅で符号化
送信側𝐴𝐴={𝑎𝑎1,𝑎𝑎2, … ,𝑎𝑎𝑟𝑟}
𝑝𝑝𝑖𝑖=𝑃𝑃𝑋𝑋 𝑎𝑎𝑖𝑖
受信側𝐵𝐵={𝑏𝑏1,𝑏𝑏2, … , 𝑏𝑏𝑠𝑠}
𝑞𝑞𝑗𝑗=𝑃𝑃𝑌𝑌 𝑏𝑏𝑗𝑗
通信路(通信路容量𝐶𝐶)
𝑋𝑋 𝑌𝑌
𝑝𝑝𝑖𝑖𝑗𝑗 = 𝑃𝑃 𝑏𝑏𝑗𝑗 𝑎𝑎𝑖𝑖
情報速度𝑅𝑅 < 通信路容量𝐶𝐶 ならよさそうだ!
通信路符号化定理(定理7.4)
6
定理7.4[通信路符号化定理]
通信路容量𝐶𝐶である通信路に対し,𝑅𝑅 < 𝐶𝐶 であれば,
情報速度𝑅𝑅の符号で復号誤り率がいくらでも小さいも
のが存在する.しかし,𝑅𝑅 > 𝐶𝐶 であれば,そのような
符号は存在しない.
通信路容量を超えない情報速度でなら,
いくらでも精度よく通信できるような符号法がある!!
※ Shannonの第2符号化定理とも呼ばれる
※でも具体的な符号の構成方法は分かっていない・・・
通信路符号化定理の意味するところ
ビット誤り率が0.1である2元対称通信路があるとする.
この通信路の通信路容量𝐶𝐶は𝐶𝐶 = 1 −ℋ 0.1 ≈ 0.531 (ビット/記号).
2元記号列を長さ 𝑘𝑘のブロックに区切って,長さ𝑛𝑛の2元符号化する.
この符号の情報速度𝑅𝑅は𝑅𝑅 = 𝑘𝑘/𝑛𝑛となるが,定理より,
⁄𝑘𝑘 𝑛𝑛 < 0.531となるような(𝑛𝑛,𝑘𝑘)に対し,ほとんど誤りなく情報を伝達できる符号
が存在する.
つまり,元の系列の ⁄𝑛𝑛 𝑘𝑘 = ⁄1 0.531 ≈ 1.88倍の長さになるように
冗長性を付加すれば,10ビットに平均して1回起こるビット誤りを,
ほとんどすべて訂正することができるような符号が存在する.
7※実際の通信路のビット誤り率はもっと小さいので,必要な冗長性はごく小さい
通信路符号化定理の証明(前半の概要)
定理は,符号の存在だけ保証している.
Shannonはこれをランダム符号化(random coding)を用いて証明.
ランダム符号化とは,受信空間から独立な無作為復元抽出を
𝑀𝑀回繰り返すことにより𝑀𝑀個の符号語を選ぶ符号化法である.
証明は,ランダム符号化によって作られる符号Cの復号誤り率
𝑃𝑃𝑒𝑒(C)の期待値𝐸𝐸C 𝑃𝑃𝑒𝑒 C を求め,情報速度𝑅𝑅と通信路容量𝐶𝐶に対して,𝑅𝑅 < 𝐶𝐶のとき符号長𝑛𝑛を𝑛𝑛 → ∞とすれば,𝐸𝐸C 𝑃𝑃𝑒𝑒 C → 0となることを示すことによる.
これが示されれば,復号誤り率が期待値以下となるような符号は
必ず一つは存在する.この事実から定理の前半は証明される.
※詳しくは教科書7.6節を参照
8
通信路符号化定理の証明(後半)
情報速度が𝑅𝑅 > 𝐶𝐶の符号で,復号誤り率𝑃𝑃𝑒𝑒をいくらでも
小さくできるものが存在すると仮定する.
すると,実際に,𝑅𝑅にいくらでも近い速度で情報を伝達す
ることができる.
すなわち,通信路容量𝐶𝐶を超えた情報速度で情報を送
ることができることになる.
通信路容量の定義からこれは不可能である.
よって,そのような符号は存在しない.【証明終】
9
ちょっと休憩
10
もう一度,通信システムのモデル
エントロピー𝐻𝐻(𝑆𝑆)(ビット/情報源記号)の情報源𝑆𝑆,通信路容量𝐶𝐶(ビット/通信路記号)の通信路を考える
情報源から情報源記号が毎秒𝛼𝛼個発生し,通信路では毎秒𝛽𝛽個の
通信路記号が伝送されているとする. 11
𝛼𝛼記号/秒𝛽𝛽記号/秒
与えられた情報源と通信路に対しどれだけ良い通信ができるか?
𝐻𝐻(𝑆𝑆)
𝐶𝐶
この通信システムで伝送できる限界は?
このとき,情報源から発生する秒あたりの情報量は,
𝓡𝓡 = 𝛼𝛼𝐻𝐻(𝑆𝑆) (ビット/秒).
一方,秒あたり通信路容量は
𝐂𝐂 = 𝛽𝛽𝐶𝐶 (ビット/秒).
したがって,
𝓡𝓡 < 𝐂𝐂ならば任意に小さい誤り率で通信することができる.しかし,
𝓡𝓡 > 𝐂𝐂
の場合は,ひずみが生じてしまう.12
𝓡𝓡 > 𝐂𝐂の場合どのくらいひずむのか?
情報源𝑆𝑆の速度・ひずみ関数を𝑅𝑅(𝐷𝐷)(ビット/情報源記
号)とすると,平均ひずみが𝐷𝐷以下という条件の下で,秒
あたりの情報量を
𝓡𝓡 𝐷𝐷 = 𝛼𝛼𝑅𝑅 𝐷𝐷まで落とすことができる.
このとき,𝓡𝓡 𝐷𝐷∗ = 𝐂𝐂を満たす𝐷𝐷∗を考える.すると,𝐷𝐷∗より
も𝜀𝜀だけ多くの平均ひずみを許せば,情報速度
𝓡𝓡 𝐷𝐷∗+𝜀𝜀 < 𝓡𝓡 𝐷𝐷∗ = 𝐂𝐂の符号化を作ることができる.
すなわち,情報源𝑆𝑆からの情報を,𝐷𝐷∗に任意に近い平均
ひずみで送ることができる.13
通信システム全体としての情報伝達の限界
14
定理7.6
情報速度𝓡𝓡(ビット/秒)で発生する情報を通信路容量𝐂𝐂(ビット/秒)の通信路を介して送るとき,
𝓡𝓡 < 𝐂𝐂
であれば,任意に小さい誤り率で情報を伝送できる.また,
𝓡𝓡 > 𝐂𝐂
であれば,情報源の速度・ひずみ関数が
𝓡𝓡 𝐷𝐷∗ = 𝐂𝐂 (ビット/秒)
を満たす𝐷𝐷∗に対し,𝐷𝐷∗に任意に近いひずみで情報を伝送できる
が,𝐷𝐷∗より小さい平均ひずみでは伝送できない.
例題7.3
1, 0 を 0.2, 0.8 の確率で発生する記憶のない情報源の出力系列を,
ビット誤り率が0.1の2元対称通信路を通して送る.情報源は1秒に1
記号を発生し,通信路も1秒に1記号を伝送する.このとき,
𝓡𝓡 = ℋ 0.2 ≈ 0.7219 (ビット/秒),
𝐂𝐂 = 1 −ℋ 0.1 ≈ 0.5310 (ビット/秒).
𝓡𝓡 > 𝐂𝐂なので,ひずみなしには通報を送れない.
ひずみ測度として𝑑𝑑 𝑥𝑥,𝑦𝑦 = �0 ; 𝑥𝑥 = 𝑦𝑦1 ; 𝑥𝑥 ≠ 𝑦𝑦を用いる.
このとき,速度・ひずみ関数は右図の𝑝𝑝 = 0.2の場合となる.これより𝐷𝐷∗ = 0.0293が求まる.
∵ 𝛼𝛼𝑅𝑅 𝐷𝐷∗ = 𝐂𝐂 ⟹ 𝑅𝑅 𝐷𝐷∗ = 0.5310⟹ℋ 0.2 −ℋ 𝐷𝐷∗ = 0.5310⟹ℋ 𝐷𝐷∗ = 0.7219 − 0.5310 = 0.1909⟹ 𝐷𝐷∗ = ℋ−1 0.1909 = 0.0293 .
15
速度・ひずみ関数𝑅𝑅(𝐷𝐷)
p=0.5
p=0.2p =0.1
R(D
)
D0.0293
0.531
すなわち,𝛼𝛼 = 𝛽𝛽 = 1
Try 練習問題7.3
今日のまとめ
通信路符号化定理
通信路符号化定理(Shannonの第2符号化定理)
ランダム符号化法による証明
符号語長が有限の場合の限界
信頼性関数
通信の限界
通信の理論的限界
次回
(具体的な)通信路符号化法について
16
符号長𝑛𝑛が有限のときの𝑃𝑃𝑒𝑒の収束の速さ
符号長𝑛𝑛を無限大にすると,いくらでも復号誤り率を小さくできる.
𝑛𝑛が有限のとき,復号誤り率𝑃𝑃𝑒𝑒はどのように0に近づくだろうか?
17
定理7.5
記憶のない通信路に対し,ランダム符号化による符号長𝑛𝑛,情報速度𝑅𝑅の符号Cの復号誤り率𝑃𝑃𝑒𝑒の期待値𝐸𝐸C 𝑃𝑃𝑒𝑒(C) は,
𝐸𝐸C 𝑃𝑃𝑒𝑒(C) ≤ 2−𝑛𝑛𝐸𝐸𝑟𝑟 𝑅𝑅
を満たす.ただし,𝐸𝐸𝑟𝑟(𝑅𝑅) は次式で定義される.
𝐸𝐸𝑟𝑟 𝑅𝑅 = max𝑃𝑃𝑋𝑋,0≤𝜌𝜌≤1
𝐸𝐸0 𝜌𝜌, p -𝜌𝜌𝑅𝑅
ここに,𝑃𝑃𝑋𝑋は入力アルファベット上の分布であり,
𝐸𝐸0 𝜌𝜌,𝑝𝑝 = − log2 ∑𝑦𝑦∈𝐵𝐵 ∑𝑥𝑥∈𝐴𝐴 𝑃𝑃𝑋𝑋 𝑥𝑥 𝑃𝑃 𝑌𝑌 𝑋𝑋 𝑦𝑦 𝑥𝑥1
1+𝜌𝜌1+𝜌𝜌
である.
𝜌𝜌は冗長度
Gallager関数
ランダム符号化指数
符号長𝑛𝑛,情報速度𝑅𝑅の最適な符号法は?
では,最も良い符号の収束速度はいくらなのか?
𝑃𝑃𝑒𝑒∗(𝑛𝑛,𝑅𝑅)を長さ 𝑛𝑛,情報速度 𝑅𝑅の符号の中での復号誤り率の最小
値とする.それを達成する符号の収束速度 𝐸𝐸 𝑅𝑅 は,
𝐸𝐸 𝑅𝑅 = lim𝑛𝑛→∞
⁄−log2 𝑃𝑃𝑒𝑒∗ 𝑛𝑛,𝑅𝑅 𝑛𝑛で与えられる.これは信頼度関数(reliability function)と呼ばれる.
しかし,そのような符号の実際的な構成方法は知られていない.LDPC(低密度パリティ符号): Robert G. Gallager (1963年)ターボ符号: C. Berrou, A. Glavieux, P. Thitimajshima (1993年)
信頼度関数を計算するのは,一般には難しい. 18
系7.1記憶のない通信路において,復号誤り率 𝑃𝑃𝑒𝑒が,
𝑃𝑃𝑒𝑒 ≤ 2−𝑛𝑛𝐸𝐸𝑟𝑟 𝑅𝑅
を満たす長さ 𝑛𝑛,情報速度 𝑅𝑅の符号が存在する.
限界に迫る符号化!
2元対称通信路に対する信頼度関数
𝑝𝑝 をビット誤り率とするとき,
𝑝𝑝1∗ = ⁄𝑝𝑝 𝑝𝑝 + 1 − 𝑝𝑝となる 𝑝𝑝1∗ を求め,𝑅𝑅0 = 1 −ℋ 𝑝𝑝1∗ と
おけば,0 ≤ 𝑅𝑅 ≤ 𝑅𝑅0 となる情報速度𝑅𝑅に対しては
𝐸𝐸 𝑅𝑅 = 1 − 𝑅𝑅 − 2 log2 𝑝𝑝 + 1 − 𝑝𝑝 .また,𝑅𝑅0 ≤ 𝑅𝑅 ≤ 𝐶𝐶 = 1 −ℋ 𝑝𝑝 となる𝑅𝑅 に
対しては,まず,
𝑅𝑅 = 1 −ℋ 𝑝𝑝∗
を満たす 𝑝𝑝∗ 𝑝𝑝 < 𝑝𝑝∗ < 𝑝𝑝1∗ を求め,
𝐸𝐸 𝑅𝑅 = 𝑝𝑝∗ log2𝑝𝑝∗
𝑝𝑝+ 1 − 𝑝𝑝∗ log2
1−𝑝𝑝∗
1−𝑝𝑝とすればよい.右図に,𝑝𝑝 = 0.01 のときの 𝐸𝐸(𝑅𝑅) を示す.
19
2元対称通信路の信頼度関数
𝐸𝐸(𝑅𝑅
)
𝑅𝑅
𝑝𝑝∗は𝑅𝑅の関数