А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество...

49
Лекции по теории информации А.А. Соловьев

Transcript of А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество...

Page 1: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

Лекции по теории информации

А.А. Соловьев

Page 2: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

Оглавление

1. Введение 2

2. Количественные информационные характеристики дискретных источников

сообщений 4

2.1 Энтропия и ее свойства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Условная информация. Условная энтропия. . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3 Кодирование дискретных источников неравномерными кодами . . . . . . . . . . . . . . 102.4 Оптимальные неравномерные коды . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3. Теоремы кодирования для каналов связи 19

3.1 Средняя взаимная информация между источниками . . . . . . . . . . . . . . . . . . . . 193.2 Постановка задачи кодирования в дискретном канале . . . . . . . . . . . . . . . . . . . . 243.3 Информационная емкость дискретных каналов без памяти . . . . . . . . . . . . . . . . . 273.4 Методы декодирование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.5 Помехоустойчивое кодирование в ДСК . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.6 Прямая и обратная теорема кодирования для дискретного канала без памяти . . . . . 343.7 Теорема Шеннона для ДСК канала . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4. Конспект лекций по теории кодирования 39

4.1 Линейные коды . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.2 Циклические коды . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

Page 3: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

Глава 1

Введение

Информация, наряду с материей и энергией, является первичным понятием и в строгом смыслене может быть определена. В повседневной жизни под информацией обычно понимают совокупностьсведений об окружающем мире, являющихся объектом хранения передачи и преобразования.

Знаки и сигналы, организованные в последовательности, несут информацию в силу однознач-ного соответствия с объектами и понятиями реального мира, например: предметы и слова их обозна-чающие.

Информация, основанная на однозначной связи знаков и сигналов с объектами реального мира,называется семантической или смысловой.

Информация, заключенная в характере следования знаков (порядке и взаимосвязи) называетсясинтаксической.

В курсе теории информации изучаются проблемы синтаксического уровня, касающиеся созда-ния теоретических основ построения систем связи, основные показатели функционирования которыхбыли бы близки к предельно возможным. Рассмотрению подлежат вопросы доставки получателю ин-формации как совокупности знаков. При этом полностью игнорируется смысловое и прагматическоесодержание информации. Синтаксическая информация также имеет практическую ценность потому,что интересующая в конечном итоге семантическая информация заключена в доставляемой получа-телю последовательности знаков или сигналов.

Введем некоторые понятия и определения. Информация, представленная в какой-либо форменазывается сообщением. Для того, чтобы сообщение можно было передать получателю, необходимовоспользоваться некоторым физическим процессом, способного с той или иной скоростью распро-страняться от источника к получателю сообщения. Изменяющийся во времени физический процесс,отражающий передаваемое сообщение, называется сигналом. Сигнал является функцией времени иих делят на четыре типа:

1) непрерывный или аналоговый сигнал (т.е. аналогичный порожденному процессу);2) дискретный по времени сигнал или последовательность отсчетов (временной интервал между

соседними отсчетами ∆t = tk+1 − tk называется шагом дискретизации);3) дискретный по уровню или квантованный сигнал (принимает лишь разрешенные значения

уровня, отделенные друг от друга шагом квантования ∆x = xk+1 − xk);4) дискретный по уровню и по времени.Дискретная информация удобней для обработки, но непрерывная информация встречается

чаще. Как например модем, который переводит цифровые данные в звуковой сигнал и наоборот.При дискретизации сигнала часть информации, как правило, теряется. Теорема об отсчетах

Найквиста – Шеннона – Котельникова гласит, что для точной дискретизации сигнала частота дис-кретизации должна быть не менее, чем в два раза выше наибольшей частоты сигнала.

Совокупность технических средств, используемых для передачи сообщений от источника кпотребителю информации называется системой связи. Приведем пример системы связи:

Источниксообщений

Сообщение−−−−−−−→ ПередатчикСигнал−−−−→ Каналx

Источникшума

Принятыйсигнал−−−−−−−→ Приемник

Принятоесообщение−−−−−−−→ Получатель

сообщения

Page 4: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

3

1. Сообщения могут быть разных типов: последовательностью букв или цифр, а также однойили более функцией времени.

2. Передатчик перерабатывает некоторым образом сообщения в сигналы определенного типа.3. Канал – это комплекс технических средств, обеспечивающих передачу сигналов от пере-

датчика к приемнику по линии связи. Линией связи называется среда, используемая для передачисигнала от приемника к передатчику (пара проводов, коаксиальный кабель, световод, область рас-пространения радиоволн). Если сигнал на входе и выходе канала непрерывен по уровню (типа 1) или2)), то канал называется непрерывным. Канал называется дискретным, если на его входе и выходеприсутствуют сигналы, дискретные по уровню (типа 3) или 4)). В общем случае в процессе передачисигнал искажается шумом, что соответствует наличию источника шума.

4. Приемник восстанавливает сообщение по принимаемому сигналу.Процесс преобразования сообщения в сигнал, осуществляющийся в передатчике, называются

кодированием и обратный ему процесс, реализуемый в приемнике, – декодированием.Теория информации (ТИ) исследует методы кодирования для экономного представления сооб-

щений различных источников сообщений и для надежной передачи сообщений по каналам связи сшумом.

В основе ТИ лежит статистическое описание источников сообшений и понятие количестваинформации, содержащейся в сообщении. Теория информации является разделом статистическойтеории связи.

На основе ТИ можно ответить на вопросы о предельных возможностях реальных систем иопределить в какой мере проектируемая система уступает теоретически возможной.

Датой рождения ТИ является 1948 г. В этот год вышла основополагающая статья Клода Шен-нона "Математическая теория связи". Начиная с этого времени ТИ интенсивно развивалась в нема-лой степени благодаря работам и наших соотечественников Колмогорова, Добрушина, Харкевича,Хинчина и других. При подготовке лекций были использованы источники [1- 5].

Page 5: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

Глава 2

Количественные информационные

характеристики дискретных источников

сообщений

2.1 Энтропия и ее свойства

Источник сообщений может в каждую единицу времени случайным образом принять одно извозможных состояний. Каждому состоянию источника ставится в соответствие условное обозначе-ние в виде знака. Совокупность знаков u1, u2, . . . uN соответствующих всем N состояниям источни-ка называется его алфавитом, а количество состояний N объемом алфавита. Под элементарнымдискретным сообщением будем понимать символ uj, генерируемый источником. В течение времениT источник порождает дискретное сообщение в виде последовательность символов. Отдельные со-стояния источника выбираются им чаще, другие реже. Поэтому каждое состояние uj принимаетсядискретным источником с определенной вероятностью p(uj).

Определение 1. Дискретным источником сообщений будем называть конечное множествоU вместе с заданным на нем распределением вероятностей p(u), x ∈ U и будем обозначать егосимволом {U, p(u)}. То есть, под дискретным источником сообщений понимается конечное дискретноевероятностное пространство.

Пусть X = {x1, . . . xM} и Y = {y1, . . . , yN} – два конечных множества. Символом XY будемобозначать декартово произведением множествX и Y , элементами которого являются упорядоченныепары (xi, yj), xi ∈ X, uj ∈ Y, i = 1, . . . ,M j = 1, . . . , N . Если X = Y то произведение XY будемобозначать через X2. Аналогичным образом определяются произведения более чем двух множеств.В частности, Xn – это множество всех последовательностей длины n элементов множества X .

Пусть на множествеXY задано совместное распределение вероятностей p(x, y), которое каждойпаре (xi, yj), xi ∈ X, yj ∈ Y , сопоставляет вероятность p(xi, yj). Соотношения

p1(xi) =∑

yj∈Y

p(xi, yj), i = 1, . . . ,M,

p1(yj) =∑

xj∈X

p(xi, yj), j = 1, . . . , N,

задают распределения вероятностей p1(x) и p2(y) на множествах X и Y . Таким образом, при заданииисточника {XY, p(x, y)} фактически задаются еще два источника {X, p1(x)} и {Y, p2(y)}. Источники{X, p1(x)} и {Y, p2(y)} будем называть совместно заданными источником {XY, p(x, y)}.

Если распределение вероятностей на произведении двух множеств X и Y удовлетворяют усло-вию

p(xi, yj) = p1(xi)p2(yj) для всех xi ∈ X, yj ∈ Y,то источники {X, p1(x)} и {Y, p2(y)} называются статистически независимыми. В противном слу-чае, говорят, что эти источники статистически зависимы.

В каждом элементарном сообщении содержится для получателя информация о состоянии ис-точника сообщений. При определении количественной меры информации не учитывается ее смысло-вое содержание. Количество информации, содержащейся в дискретном сообщении измеряется вели-чиной исчезнувшей в ходе эксперимента неопределенности. Поэтому меру неопределенности можно

Page 6: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

5

рассматривать как количественную меру информации содержавшейся в сообщении. Определение ме-ры неопределенности обсудим на примере источника U с равновероятными состояниями.

Мера должна удовлетворять ряду естественных условий. С увеличением объема выбора, то естьобъема алфавита источника, мера неопределенности должна возрасти. Кроме того, вводимая меранеопределенности должна обладать свойством аддитивности: если два независимых источника X и Yс объемами алфавитов M и N объединены в один источник, реализующий пары состояний (xi, yj), тонеопределенность объединенного источника должна быть равной сумме неопределенностей исходныхисточников. Мера неопределенности в случае равновероятности состояний является функцией объемаисточника и поскольку объем алфавита объединенного источника равен MN , то искомая функциядолжна удовлетворять условию

f(MN) = f(M) + f(N).

Функцией, удовлетворяющей этому соотношению, является логарифмическая функция. Перечислен-ные требования выполняются, если в качестве меры неопределенности источника с равновероятнымисостояниями принять логарифм объема алфавита источника с основанием большим единицы

H(U) = logN .

Ясно, чтоа) с ростом N величина H(U) монотонно возрастает;б) если объем алфавита источника равен N = 1, то H(U) = log 1 = 0, то есть неопределенность

отсутствует;в) величина H(U) обладает свойством аддитивности

logMN = logM + logN .

Основание логарифма определяет единицу количества информации. Если основание равно 2,то единица количества информации называется битом и представляет собой информацию, содержа-щуюся в одном дискретном сообщении источника равновероятных сообщений с объемом алфавита,равным двум. Если основание равно 10, то получаем единицу, называемую дитом. С основанием eединица информации называется натом.

Данная мера неопределенности была предложена Хартли в 1928 году.В общем случае, когда вероятности различных состояний источника {U, p(u)} с объемом N не

одинаковы, степень неопределенности конкретного состояния зависит не только от объема алфавитаисточника, но и от вероятности этого состояния. В таком случае количество информации, содержа-щейся в одном дискретном сообщении uk, имеет смысл определить как функцию вероятности p(uk)появления этого дискретного сообщения

I(uk) = − log p(uk) = log1

p(uk).

Знак (−) выбирается с тем, чтобы I(uk) > 0. В случае достоверного сообщения, когда p(uk) = 1,имеем I(uk) = 0.

Количество информации, содержащейся в дискретном сообщении источника является случай-ной величиной, так как зависит от степени неожиданности (вероятности) реализуемого источникомсообщения. Среднее количество информации, содержащееся в отдельном сообщении, называется эн-тропией источника

H(U) =M{log

1

p(u)

}=

N∑

i=1

p(ui) log 1p(ui) . (2.1)

Чем больше энтропия источника, тем больше степень неопределенности реализуемых им сообще-ний в среднем, то есть более неопределенным является ожидание сообщений. Впервые мера (2.1)

Page 7: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

6

была предложена Клодом Шенноном в его фундаментальной работе "Математические основы тео-рии связи опубликованной в 1948 году. Название "энтропия" не случайно, так как соотношение (2.1)совпадает с выражением для энтропии Больцмана термодинамической системы.

Рассмотрим теперь свойства энтропии:1. Энтропия любого дискретного источника неотрицательна, H(U) > 0. Равенство возможно

лишь в том случае, когда источник генерирует одно единственное сообщение с вероятностью, равнойединице.

2. Пусть N – объем алфавита дискретного источника. Тогда H(U) 6 logN . Причем равенствоимеет место только в том случае, когда все сообщения равновероятны.

H(U)− logN =

N∑

k=1

p(uk) log1

p(uk)− logN

G∑

k=1

NP (uk) =

N∑

k=1

p(uk) log1

p(uk)N.

Так как lnx < x− 1 при x > 0 и lnx = log xlog e , то

H(U)− logN = log e

N∑

k=1

p(uk) ln1

Np(uk)6 log e

N∑

k=1

p(uk)[ 1

Np(uk)− 1

]=

= log e

N∑

k=1

[ 1

N− p(uk)

]= log e(1− 1) = 0 .

то есть Р(U) 6 logN .3. Свойство аддитивности – энтропия нескольких совместно заданных статистических дискрет-

ных источников сообщений равна сумме энтропий исходных источников.Энтропия совместного источника {XY, p(x, y)} равна

H(XY ) =M∑

i=1

N∑

j=1

p(xi)p(yj) log1

p(xi)p(yj)=

=

N∑

k=1

p(yj)

M∑

i=1

p(xi) log1

p(xi)+

M∑

i=1

p(xi)

N∑

j=1

p(yj) log1

p(yj)= H(X) +H(Y ) .

Предложение 2.1. Для любых двух вероятностных распределений p(u) и q(u) на алфавитеU = {u1, . . . , uN} справедливо неравенство

N∑

i=1

p(ui) log1

p(ui)6

N∑

i=1

p(ui) log1

q(ui),

которое переходит в равенство тогда и только тогда, когда p(ui) = q(ui) для всех ui ∈ U .

Доказательство.

N∑

i=1

p(ui) log1

p(ui)−

N∑

i=1

p(ui) log1

q(ui)=

N∑

i=1

p(ui) logq(ui)

p(ui)= log e

N∑

i=1

p(ui) lnq(ui)

p(ui)6

6 log e

N∑

i=1

p(ui)[q(ui)p(ui)

− 1]= log e

[ N∑

i=1

q(ui)− log e[ N∑

i=1

p(ui)]= log e(1− 1) = 0 .

Page 8: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

7

Следствием этого предложения является, в частности, свойство 2.Избыточностью источника дискретных сообщений с энтропией H и объемом алфавита N

называется величина, равная

1− H

logN,

где logN – максимально возможное значение энтропии при данном объеме алфавита. Избыточностьпоказывает, какая доля возможной при заданном объеме алфавита неопределенности (энтропии) неиспользуется источником. В частности, избыточность английского текста составляет 50%, ихбыточ-ность русского текста – 70% .

Пример 1. Энтропия двоичного источника

U = {0, 1}, P (0) = p, P (1) = 1− p

равна

H(U) = p log21

p+ (1− p) log2

1

1− p = h(p) .

Функция h(p) называется двоичной энтропией. Здесь 0 6 h(p) 6 1 и переходит в равенство при p = 12 .

В последнем случае источник называется двоичным симметричным источником (ДСИ) и каждыйсимвол на выходе ДСИ содержит один бит информации.

Пример 2. Некто задумал целое число в интервале от 0 до 3. Опыт состоит в угадыванииэтого числа. На наши вопросы Некто может отвечать только "Да" или "Нет". Сколько вопросовмы должны задать, чтобы узнать задуманное число, или иначе, какое количество информации мыдолжны получить, чтобы полностью снять начальную неопределенность.

Решение. Исходами в данном случае являются:A1="задуман 0"; A1="задумано 1"; A2="задумано 2"; A3="задумано 3".Естественно предположить, что вероятности "задумать число"у всех чисел одинаковы: N = 4, следо-вательно, p(Ai) = 1/4, log2 p(Ai) = −2 и H = 2 битам. Для полного снятия неопределенности опыта(угадывания задуманного числа) нам необходимы 2 бита информации, то есть ответы на 2 вопроса сдвумя возможными вариантами ответов (да – нет).

Количество информации должно быть равно числу вопросов с бинарными вариантами ответов,

которые необходимо задать, чтобы полностью снять неопределенность задачи.

Убедимся, что два полученных ответа полностью снимают неопределенность и, тем самым,позволяют узнать задуманное число.

x>1

x>0 x>2

x=0 x=1 x=2 x=3

no no yes

Question 1

Question 2

Answer 1

yesAnswer 2

no yes

Таким образом, действительно, два полученных ответа решают задачу.

Page 9: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

8

2.2 Условная информация. Условная энтропия.

Пусть {X, p(x)} и {Y, p(y)} совместно заданы источником {XY, p(x, y){. Зафиксируем некотороеэлементарное сообщение yj ∈ Y , p(yj) 6= 0 и рассмотрим условное распределение p(x|yj) на X . Длякаждого сообщения xi ∈ X источника {X, p(x)} определена условная собственная информация

I(xi|yj) = − log p(xi|yj) ,

элемента сообщения xi при фиксированном сообщении yj . Функцию I(x|yj), x ∈ X , можно рассматри-вать как случайную величину на вероятностном пространстве {X, p(x|yj)}. Ее математическое ожи-дание

H(X |yj) =M∑

i=1

p(xi|yj)I(xi|yj) = −M∑

i=1

p(xi|yj) log p(xi|yj)

называется условной энтропией источника {X, p(x)} относительно сообщения yj ∈ Y .В свою очередь, условную энтропию H(X |y), y ∈ Y , можно рассматривать как случайную

величину на вероятностном пространстве {Y, p(y)}.Определение 2. Математическое ожидание H(X |Y ) случайной величины H(X |y), опреде-

ленной на вероятностном пространстве {Y, p(y)} называется условной энтропией источника X отно-сительно источника Y

H(X |Y ) =MH(X |y) =N∑

j=1

p(yj)H(X |yj) =

= −M∑

i=1

N∑

j=1

p(yj)p(xi|yj) log p(xi|yj) = −M∑

i=1

N∑

j=1

p(xi, yj) log p(xi|yj) .

Рассмотрим свойства условной энтропии.1. H(X |Y ) 6 H(X), Равенство имеет место тогда и только тогда, когда источники X и Y

статистически независимы.

H(X |Y )−H(X) = −M∑

i=1

N∑

j=1

p(xi, yj) log p(xi|yj) +M∑

i=1

p(xi) log p(xi) =

=

M∑

i=1

N∑

j=1

p(xi, yj)[log

1

p(xi|yj)+ log p(xi)

]=

M∑

i=1

N∑

j=1

p(xi, yj) logp(xi)

p(xi|yj)6

6 log e

M∑

i=1

N∑

j=1

p(xi, yj)[ p(xi)

p(xi|yj)− 1

]== log e

[ M∑

i=1

N∑

j=1

p(xi)p(yj)−M∑

i=1

N∑

j=1

p(xi, yj)]= log e(1− 1) = 0 .

Равенство возможно тогда и только тогда, когда p(x|y) = p(x), то есть когда x и y независимыдля всех x ∈ X и y ∈ Y .

Таким образом, результат опыта Y может уменьшить неопределенность опыта X .2. Имеет место соотношение,

H(XY ) = H(Y ) +H(X |Y ),

называемое свойством аддитивности энтропии. В самом деле, с помощью равенства p(x, y) == p(y)p(x|y), находим

H(XY ) = −M∑

i=1

N∑

j=1

p(xi, yj) log p(xi|yj)−M∑

i=1

N∑

j=1

p(xi, yj) log p(yj) = H(X |Y ) +H(Y ).

Page 10: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

9

Аналогично, пользуясь соотношением p(x, y) = p(x)p(y|x) можно получить равенство

H(XY ) = H(X) +H(Y |X) .

3. Теорема о невозрастании информации при отображении.

Теорема 2.1. Пусть задан источник {X, p(x)} и на нем определено отображение, ϕ : X → Y .Это отображение определяет источник {Y, p(y)}, где p(y) =

∑x :ϕ(x)=y

p(x). Пусть H(X) и H(Y ) –

энтропии источников X и Y , тогда

H(Y ) 6 H(X) .

Знак равенства имеет место тогда и только тогда, когда отображение ϕ(x) обратимо, то естьϕ является взаимно однозначным отображением X на Y .

Доказательство. Совместное распределение p(x, y) на произведении множеств XY задается соотно-шением p(x, y) = p(x)p(y|x), где p(y|x) = 1, если y = ϕ(x) и p(x, y) = 0, если y 6= ϕ(x). Тогда либоlog p(y|x) = 0, либо p(y|x) = 0. Поэтому

H(Y |X) = −M∑

i=1

N∑

j=1

p(xi)p(yj |xi) log p(yj|xi) = 0 .

Из аддитивности и неотрицательности энтропии получим, что

H(Y ) 6 H(Y ) +H(X |Y ) = H(X) +H(Y |X) = H(X) .

Энтропия сохранится тогда и только тогда, когда H(X |Y ) = 0. Поэтому для всех y ∈ Y имеемH(X |y) = 0, значит, p(x|y)I(x|y) = −p(x|y) log p(x|y) = 0 для всех x ∈ X при каждом y ∈ Y . Тогдадля каждого y ∈ Y существует единственный x ∈ X такой, что p(x|y) = 1. Последнее равенствовыполняется, если ϕ(x) = y, то есть отображение ϕ обратимо.

В случае H(X |Y ) = 0 будем говорить, что источник Y однозначно определяет источник X .4. Пусть {XY Z, p(x, y, z)} вводит три совместно заданных источника X, Y, Z и пусть

I(x|y, z) = − log p(x|y, z)

есть условная собственная информация при фиксированной паре сообщений y, z, где

p(x|y, z) = p(x, y, z)∑x∈X p(x, y, z)

.

Число

H(X |Y Z) = −∑

x∈Xy∈Yz∈Z

p(x, y, z) log p(x|y, z)

называется условной энтропией источника X относительно пары источников Y, Z.С помощью Предложения 2.1 доказывается следующее неравенство

H(X |Y Z) 6 H(X |Y ) .

Равенство выполняется в том и только в том случае, когда

p(x|y, z) = p(x|y) для всех (x, y, z) ∈ XY Z,

Page 11: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

10

то есть когда при данном сообщении y сообщения x статистически независят от z.

H(X |Y Z) =∑

x∈Xy∈Yz∈Z

p(x, y, z) log1

p(x|y, z) 6∑

x∈Xy∈Y

z∈Z

p(x, y, z) log1

p(x|y) = H(X |Y ) .

В частности, верно неравенствоH(X |Y ) 6 H(X) .

Это неравенство обобщается на случай n совместно заданных источников. Рассмотрим источник{X1, . . . , Xn, p(x

(1), . . . , x(n))}. Тогда для любых s и m, 1 6 s 6 m 6 i, выполняется неравенство

H(Xi|Xi−1 . . .Xi−s) 6 H(Xi|Xi−1 . . . Xi−m) .

5. Свойство аддитивности допускает обобщение. Если {X1, . . . , Xn, p(x(1), . . . , x(n))} – совместно

заданный источник, тогда

H(X1, . . . , Xn) = H(X1) +H(X2|X1) + · · ·+H(Xn|Xn−1 . . . X1) .

Из свойства 4 следует, что

H(X1, . . . , Xn) 6

n∑

i=1

H(Xi)

и равенство возможно тогда и только тогда, когда источники {Xi, pi(x(i)} статистически независимы,

то есть

p(x(1), . . . , x(n)) =

n∏

i=1

pi(x(i)) ,

где

pi(x(i)) =

k 6=i

x(k)∈Xk

p(x(1), . . . , x(n)) .

Если источники {Xi, pi(x(i))} совпадают с источником {X, p(x)} и статистически независимы,

то

H(Xn) = nH(X) .

2.3 Кодирование дискретных источников неравномерными

кодами

Определение 3. Дискретным источником без памяти (ДИБП) называется источник сооб-щений такой, что для любых n = 1, 2, . . . и любой последовательности и любой последовательности(x(1), . . . , x(n)), x(i) ∈ X , имеет место равенство

p(x(1), . . . , x(n)) =n∏

j=1

p(x(j)) .

Обозначим через A некоторое множество, состоящее из D, D > 1, элементов: A = {a1, . . . , aD}.Назовем его алфавитом кода источника. Элементы алфавита A будем называть кодовыми симво-лами. Последовательности кодовых символов будем называть кодовыми словами, а любое семействокодовых слов – кодом над алфавитом A.

Пример 3. Пусть A = {0, 1}. Тогда множества M = {011, 0101, 11, 10} и M = {00, 01, 10, 11}являются двоичными кодами объема 4.

Page 12: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

11

Определение 4. Код называется равномерным, если все его слова имеют одинаковую длинуm. Это число называется длиной кода. Если хотя бы два кодовых слова имеют различные длины, токод называется неравномерным.

Пример 4. Количество различных D-ичных последовательностей длины m равно Dm.Количество различных слов неравномерного кода с максимальной длиной кодовых слов m

равно D(Dm − 1)/(D − 1).

Определение 5. Кодированием сообщений источника X посредством кода называется отоб-ражение (необязательно взаимно однозначное) множества сообщений в множество кодовых слов.

Примером неравномерного кода является код Шеннона-Фэно. При кодировании по методуШеннона-Фэно алфавит расположенный в порядке убывания вероятностей появления символов, раз-бивается на две группы таким образом, чтобы сумма вероятностей появления символов в каждойгруппе была приблизительно одинаковой. Каждая группа в свою очередь также разбивается на двепо такому же принципу. Операция продолжается до тех пор, пока в каждой группе не останется поодному символу. Каждый символ обозначается двоичным числом, последовательные цифры которого(нули и единицы) показывают в какую группу попал данный символ при очередном разбиении.

В коде Шеннона-Фэно часто встречающиеся буквы кодируются относительно короткими дво-ичными символами, а редкие – длинными.

Основной характеристикой неравномерного кодирования является количество символов, за-трачиваемых при кодировании одного элементарного сообщения. Обозначим через mi длину слова,кодирующего сообщение xi ∈ X . Пусть p(xi) – вероятность этого сообщения. Тогда

m(X) =∑

xi∈X

mip(xi)

есть средняя длина кодовых слов, кодирующих источник сообщений {X, p(x)}.Предположим, что неравномерными кодами кодируется сообщения длины n, то есть кодируется

источник сообщений {Xn, p(x)}.Определение 6. Число

R =m(Xn)

n

называется средней скоростью неравномерного кодирования посредством двоичного кода при разби-ении последовательности сообщений на блоки длины n.

Пример 5.

Xi p(xi)Равномерныйкод

Неравномерныйкод

mi

x1 1/4 000 00 2

x2 1/4 001 01 2

x3 1/8 010 100 3

x4 1/8 011 101 3

x5 1/16 100 1100 4

x6 1/16 101 1101 4

x7 1/16 110 1110 4

x8 1/16 111 1111 4

Оба кода осуществляют побуквенное кодирование. Энтропия источника сообщений равна 2, 75.Скорость кодирования в первом случае равна 3 бит на элементарное сообщение, во втором случае –2.75 бит на элементарное сообщение.

Page 13: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

12

Пример 6. Предположим, что источник порождает сообщения x1, x2, x3, x4 и эти сообщениякодируются кодовыми словами 0, 01, 10, 011 соответственно. Кодовый алфавит состоит из двух сим-волов 0 и 1. Пусть на выходе источника появилось следующее сообщение x2x3x2x1. На выходекодера возникает последовательность 0110010. Эта последовательность допускает несколько спосо-бов декодирования. Кроме правильного декодирования возможны варианты: x4x1x2x1 и x4x1x1x3.

Коды, в которых ни одно слово не является началом другого называются префиксными. Пре-фиксные коды являются кодами со свойством однозначного декодирования.

Пример 7. Код 0, 01, 011 не является префиксным, но является однозначно декодируемым.

Определение 7. Скоростью создания информации источником (X, p(x)) при неравномерномкодировании называется наименьшее число H такое, что для любого R > H найдется n (длина коди-руемых сообщений) и неравномерный код со средней скоростью кодирования R, который допускаетоднозначное декодирование.

Будет доказано, что скорость кодирования при неравномерном кодировании, как и при равно-мерном кодировании, равна энтропии источника элементарных сообщений.

Как и ранее нужно доказать прямую и обратную теоремы. Первая из них утверждает, что привсех R > H(X) найдется n и однозначно декодируемый неравномерный код со скорость кодированияR, а вторая будет утверждать, что для любого R < H(X) не существует однозначно декодируемогокода ни при каком n.

Теорема 2.2. Предположим, что однозначно декодируемый двоичный код состоит из M слов длиныкоторых равны m1, . . . ,mM и кодовый алфавит двоичный. Тогда

M∑

i=1

2−mi 6 1 .

Доказательство. Пусть L – произвольное положительное число. Имеем

( M∑

i=1

2−mi)L

=

M∑

i1=1

· · ·M∑

iL=1

2−(mi1+···+miL). (2.2)

В выражении в правой части равенства каждое слагаемое соответствует каждой возможной после-довательности из L кодовых слов. Сумма mi1 + · · · +miL равна суммарной длине соответствующейпоследовательности кодовых слов. Если через Aj обозначить число последовательностей из L кодо-вых слов, имеющих суммарную длину j, то (2.2) можно переписать в виде

( M∑

i=1

2−mi)L

=

Lm∑

j=1

Aj2−j ,

где m – максимальное из чисел m1, . . . ,mM .Так как 2j – максимальное количество различных последовательностей длины j, то Aj 6 2j .

Поэтому

( M∑

i=1

2−mi)L

6 Lm

для всех возможных L. Поскольку слева стоит экспоненциальная функция, а справа – линейнаяфункция переменной L, это неравенство может выполняться тогда и только тогда, когда

M∑

i=1

2−mi 6 1.

Page 14: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

13

Удобное описание префиксных кодов дают специальные графы, называемые кодовыми дере-вьями: 2-ичным деревом называется граф, в котором нет петель и в котором из каждого узла выходитне более 2 ребер и каждый узел, кроме корня дерева, входит только одно ребро.

Каждому из ребер, выходящему из узла, сопоставляется один символ двоичного кодового ал-фавита. Различным ребрам, выходящим из одного узла, сопоставляются различные символы.

Узлы дерева, отстоящие от корня на i ребер, образуют ярус порядка i. Порядком дерева называ-ется максимальный из порядков его узлов. Узел, из которого не выходит ни одного ребра, называетсяконцевым. Наконец, код является префиксным, если кодовые слова соответствуют только концевымузлам дерева.

Теорема 2.3. (Неравенство Крафта.) Для того, чтобы существовал двоичный префиксный код сдлинами кодовых слов m1,m2, . . . ,mM необходимо и достаточно, чтобы

M∑

i=1

2−mi 6 1 . (2.3)

Доказательство. Приведем здесь доказательство необходимости, отличное от приведенного в Тео-реме 2. Заметим, что максимальное количество узлов на ярусе j равно 2j . Пусть m = max{m1, . . .. . . ,mM}. Рассмотрим концевой узел порядка mi. Этот узел отстоит от яруса m на m − mi ребери, следовательно, исключает из этого яруса 2m−mi возможных узлов. Так как количество узлов,исключаемых из яруса m всеми концевыми узлами порядков m1, . . . ,mM , не может превосходитьмаксимального количества узлов на этом ярусе, то

M∑

i=1

2m−mi 6 2m (см. Рис. 2.1) .

После деления обеих частей неравенства на Dm получаем (2.3).

0

0 1

01

0 10 1

mi

m

2m−mi

Рис. 2..1:

Достаточность. При выполнении (2.3) дерево с концевыми узлами порядков m1, . . . ,mM можетбыть построено. Предположим, что среди этого набора порядков число s встречается ровно αs раз,s = 1, . . . ,m. Тогда

M∑

i=1

2−mi =

m∑

s=1

αs2−s

6 1 .

Page 15: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

14

Перепишем это неравенство следующим образом:

i−1∑

s=1

αs2−s + αi2

−i +

m∑

s=i+1

αs2−s

6 1 .

Тогда

αi 6 2i −i−1∑

s=1

αs2i−s −

m∑

s=i+1

αs2i−s

6 2i −i−1∑

s=1

αs2i−s . (2.4)

Применим метод математической индукции.Убедимся, что дерево, содержащее α1 концевых узлов порядка 1 может быть построено. Так как из(2.3) следует, что α12

−1 6 1, то α1 6 2. Максимально возможное количество концевых узлов порядка1 равно 2 и α1 6 2. Поэтому дерево с α1 концевым узлами порядка 1 может быть построено.

Предположим, что дерево с αs концевыми узлами порядка s, s = 1, . . . , i − 1, может бытьпостроено. Докажем, что к этому дереву можно добавить еще αi концевых узлов порядка i. Есливерно предположение индукции, то из яруса порядка i исключается

∑i−1s=1 αs2

i−s возможных концевыхузлов (каждый узел из яруса порядка s исключает из яруса порядка i 2i−s возможных узлов). Так как

максимальное количество возможных концевых узлов на этом уровне равно 2i, то 2i −∑i−1s=1 αs2

i−s

есть количество свободных узлов на ярусе i. Из (2.4) следует, что количество αi узлов на ярусе i,которые должны быть добавлены, не превосходит количества свободных узлов. Следовательно, кдереву с αs концевыми узлами порядка s, s = 1, . . . , i− 1, могут быть добавлены αi концевых узловпорядка i.

Перейдем к доказательству теоремы Шеннона.Докажем два вспомогательных утверждения, относящихся к побуквенному кодированию про-

извольных источников. Пусть {X, p(x)}, X = (x1, . . . , xM ) – произвольный дискретный источник и

пусть m(X) =∑M

i=1mip(xi) – средняя длина 2-ичного кода, слова которого длиной mi сопоставля-ются элементарным сообщениям xi.

Теорема 2.4. Для любого неравномерного кода со свойством однозначного декодирования верно нера-венство

m(X) > H(X) .

Доказательство. Среднюю длину кодовых слов m(X) представим в виде

m(X) =

M∑

i=1

p(xi) log 2mi .

Рассмотрим разность

H(X)−m(X) = −M∑

i=1

p(xi) log p(xi) +

M∑

i=1

p(xi) log 2−mi =

M∑

i=1

p(xi) log2−mi

p(xi).

Воспользуемся неравенством lnx < x− 1 при x > 0. В результате получим, что

H(X)−m(X) 6 log e

M∑

i=1

p(xi)(2−mi

p(xi)− 1

)= log e

( M∑

i=1

2−mi − 1)6 0 . (2.5)

(см. Теорему (3)).

Page 16: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

15

Равенство в (2.5) возможно тогда и только тогда, когда p(xi) = 2−mi , i = 1, . . . ,M . Такимобразом, если вероятности элементарных сообщений являются целыми отрицательными степенямидвойки и

∑Mi=1 2

−mi = 1, то для соответствующего 2-ичного неравномерного кода имеет место равен-ство

m(X) = H(X) .

Коды, для которых средняя длина кодовых слов равна наименьшему возможному значению, назы-ваются оптимальными.

Теорема 2.5. Существует 2-ичный неравномерный код со свойством однозначного декодирования,для которого

m(X) 6 H(X) + 1 .

Доказательство. Пусть mi – наименьшее целое число, удовлетворяющее неравенству m′i > I(xi), где

I(xi) = − log p(xi) – собственная информация сообщения xi, i = 1, . . . ,M . Ясно, что

I(xi) 6 m′i 6 I(xi) + 1 .

Поскольку

M∑

i=1

2−m′

i 6

M∑

i=1

2−I(xi) =M∑

i=1

p(xi) = 1 ,

то по теореме 3 существует 2-ичное дерево с концевыми вершинами порядков m′1, . . . ,m

′M . Соответ-

ствующий код будет иметь среднюю длину

m(X) =M∑

i=1

m′ip(xi) 6 H(X) + 1 .

Пусть кодируются сообщения длины n ДИБП и H(Xn) – энтропия источника {Xn, p(x)}.Замечание к теореме 4. Для любого 2-ичного кода, однозначно декодирующего последователь-

ность из Xn, среднее число символов, приходящихся на одно сообщение, удовлетворяет неравенству

R =m(Xn)

n>H(Xn)

n.

Замечание к теореме 5. Существует 2-ичный код, однозначно декодирующий последователь-ности из Xn, для которого верно неравенство

R =m(Xn)

n6H(Xn)

n+

1

n.

Теорема 2.6. (Обратная теорема кодирования.) Для любого кода, однозначно кодирующего после-довательности сообщений длиной n ДИБП , средняя скорость кодирования R удовлетворяет нера-венству R > H(X).

Доказательство. В самом деле, согласно Замечанию к теореме 4 имеем

R >H(Xn)

n=nH(X)

n= H(X) .

Page 17: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

16

Теорема 2.7. (Прямая теорема кодирования.) Пусть ε – произвольное положительное число. Су-ществует n и однозначно декодируемый 2-ичный код, кодирующий последовательности сообщенийдлиной n ДИБП {X, p(x)}, для которого верно неравенство

R < H(X) + ε .

Доказательство. Так какH(Xn) = nH(X), согласно Замечанию к теореме 5 существует однозначнодекодируемый 2-ичный код скоростью кодирования R, не превосходящим H(X) + 1/n. Выбирем n0

так, чтобы 1/n0 6 ε, тогда для всех n > n0 будем иметь R < H(X) + ε.

2.4 Оптимальные неравномерные коды

Оптимальным называется код, средняя длина кодовых слов которого равна минимально воз-можной. В простейшем случае, когда вероятности элементарных сообщений источника {X, p(x)},X = {x1, . . . , xM} являются целыми отрицательными степенями двойки

p(xi) = 2mi , i = 1, . . . ,M

любой 2-ичный код со свойством однозначно декодируемости является оптимальным, так как средняядлина кодовых слов равна

m(X) = H(X)

(см. Теорему 4). В таком коде сообщению xi ставится в соответствие слово длины mi. Всякое де-рево с набором концевых вершин порядков m1, . . . ,mM и указанным правилом соответствия даетоптимальный код.

Будем предполагать, что

p(x1) > p(x2) > · · · > p(xM ) .

Ограничимся рассмотрением только префиксных кодов.

Лемма 2.1. В оптимальном коде слово, соответствующее наименее вероятному сообщению,имеет наибольшую длину.

Доказательство. Пусть mi – длина кодового слова сообщения xi ∈ X , и m – средняя длина кодовыхслов

m(X) =

M∑

i=1

mip(xi) .

Предположим, что в оптимальном коде mi > mM для некоторого i < M . Рассмотрим код, в которомi-е и M -е кодовые слова исходного кода заменены одно другим. Средняя длина m′ для этого кодаудовлетворяет соотношению

m′ = m− p(xi)mi − p(xM )mM + p(xi)mM + p(xM )mi =

m− (mi −mM )(p(xi)− p(xM )) < m ,

что противоречит предположению об оптимальности кода.

Лемма 2.2. В оптимальном двоичном префиксном коде два наименее вероятных сообщениякодируются словами одинаковой длины, которые, можно считать, различаются только в послед-нем знаке, одно из них оканчивается нулем, а другое – единицей.

Page 18: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

17

Доказательство. Обозначим через uj слово, кодирующее сообщение xj . Пусть uM – слово наиболь-шей длины оптимального кода. Тогда существует по крайней мере еще одно слово, скажем ui, такойже длины оптимального кода. В противном случае единственное слово наибольшей длины кода мо-жет быть укорочено без нарушения декодируемости и, тем самым, получим меньшую среднюю длинукодовых слов. Кодовые слова ui и uM должны отличаться в последнем знаке. В противном случаедлины кодовых слов можно уменьшить, сохраняя однозначную декодируемость, и получить при этомменьшую среднюю длину кодовых слов. Можем считать, модифицируя кодовое дерево, что mM − 1первых символов у них совпадают. Покажем теперь, что эти слова кодируют наименее вероятные со-общения. Предположим противное, что i < M − 1. Тогда mi = mM > mM−1. В этом случае среднююдлину кода можно было бы уменьшить, заменив слово ui на uM−1 и uM−1 на ui. Следовательно, этопредположение не верно и наибольшую длину имеют слова uM−1 и uM .

Рассмотрим новый источник сообщений X ′, состоящий из M − 1 элементарных сообщений{x′1, . . . , x′M−1} с вероятностями

p(x′i) =

{p(xi), i = 1, . . . ,M − 2;

p(xM−1) + p(xM ), i =M − 1 .

Любой декодируемый префиксный код для источника X ′ может превратиться в декодируемый коддля источника X приписыванием к кодовому слову, кодирующему сообщение x′M−1, символы 0 и 1для получения слов, кодирующих сообщения xM−1 и xM .

Лемма 2.3. Если оптимален однозначно декодируемый префиксный код для источника X ′,то оптимален, полученый из него префиксный код для источника X.

Доказательство. Обозначим через m′ среднюю длину кодовых слов префиксного не обязательнооптимального кода источника X ′. Тогда средняя длина m кодовых слов для источника X

m =

M∑

i=1

mip(xi) =

M−2∑

i=1

mip(xi) +mM−1p(xM−1) +mMp(xM ) =

M−1∑

i=1

m′ip(x

′i)−m′

M−1[p(xM−1) + p(xM )] +mM−1p(xM−1) +mMp(xM ) = (2.6)

m′ + p(xM−1)[mM−1 −m′M−1] + p(xM )[mM −m′

M−1] = m′ + p(x′M−1) .

Здесь учтено, что длины m′i, i = 1, 2, . . . ,M − 1,, кодовых слов для источника X ′ связаны с длинами

mi, i = 1, . . . ,M кодовых слов для источника X следующим соотношением{mi = m′

i, i = 1, . . . ,M − 2;

mM = mM−1 = m′M−1 + 1 .

Из (2.6) следует, что m и m′ отличаются на константу p(x′M−1), которая не зависит от выбора кодовахслов. Покажем, что, строя декодируемый код для источника X ′ с минимальным значением m′, мыполучаем декодируемый код для источника X с минимальным значением m.

Обозначим через mопт и m′опт средние длины оптимальных кодов для источников {X, p(x)} и

{X ′, p(x′)}. Для оптимального кода источника {X ′, p(x′)} имеем

mопт 6 m = m′опт + p(x′M−1). (2.7)

Модифицируем оптимальный код источника {X, p(x)}, удаляя последние символы 0 и 1 в кодовыхсловах максимальной длины и объединяя соответствующие им сообщения в одно сообщение, получимкод для источника {X ′, p(x′)}, для которого верно соотношение

mопт = m′ + p(x′M−1) > m′опт + p(x′M−1) (2.8)

Page 19: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

18

Из (2.7) и (2.8) следует, что

mопт = m′опт + p(x′M−1) .

Таким образом, задача построения оптимального префиксного кода сводится к задаче построе-ния оптимального префиксного кода для источника, содержащего на одно сообщение меньше. В этомисточнике снова можно выделить два наименее вероятных сообщений и, объединяя их, получитьновый источник, содержащий теперь уже на два сообщения меньше, чем исходный. Продолжая этупроцедуру, можно дойти до источника, содержащего всего два сообщения, оптимальным кодом длякоторого являются 0 для одного сообщения и 1 для другого. Описанный метод построения префикс-ного кода называется методом Хаффмена.

Page 20: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

Глава 3

Теоремы кодирования для каналов связи

3.1 Средняя взаимная информация между источниками

Пусть X и Y – два дискретных множества. Рассмотрим источник {XY, p(x, y)}, алфавит кото-рого состоит из всевозможных пар (x, y) ∈ XY . Задание источника XY определяет также источники{X, p(x)} и {Y, p(y)}, где

p(x) =∑

y∈Y

p(x, y); p(y) =∑

x∈X

p(x, y) .

Кроме того, для каждого из сообщений y ∈ Y и x ∈ X , для которых p(x) 6= 0 и p(y) 6= 0, опреде-лены условные распределения вероятностей p(x|y) и p(y|x), а следовательно, и условные источники{X, p(x|y)} и {Y, p(y|x)}.

Пусть

I(x) = − log p(x); I(y) = − log p(y)

собственная информации

I(x|y) = − log p(x|y); I(y|x) = − log p(y|x .)и условная собственная информация сообщений x ∈ X и y ∈ Y .

Определение 8. Количеством информации о сообщении y ∈ Y , содержащейся в сообщенииx ∈ X , называется величина

I(y;x) = logp(y|x)p(y)

.

Так как p(x, y) = p(x|y)p(y) = p(y|x)p(x), то

p(x|y)p(x)

=p(x, y)

p(x)p(y)=p(y|x)p(y)

.

Поэтому количество информации о сообщении y ∈ Y в сообщении x ∈ X равно количеству информа-ции о сообщении x ∈ X в сообщении y ∈ Y , или

I(x; y) = I(y;x) = logp(x, y)

p(x)p(y).

На этом основании I(x; y) называют количеством взаимной информации между сообщениями x иy или просто взаимной информацией между сообщениями x и y. Отметим, что в отличии от I(x)взаимная информация I(x; y) может принимать и отрицательные значения в случае, если p(x|y) <p(x), то I(x; y) < 0.

Взаимная информация между сообщениями обладает следующими свойствами:1. Если сообщения x и y независимы, то есть p(x, y) = p(x)p(y), то сообщение y не дает никакой

информации о сообщении x. В этом случае I(x; y) = 0.2. Если сообщение x влечет сообщение y, то есть p(y|x) = 1, тогда I(y;x) = I(y) (количество

информации о сообщении y в сообщении x равно собственной информации сообщения y).Количество взаимной информации будем рассматривать как случайную величину на источнике

{XY, p(x, y)}.

Page 21: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

20

Определение 9. Математическое ожидание случайной величины I(x; y) на источнике{XY, p(x, y)} называется средним количеством взаимной информации или просто средней взаимнойинформацией между источниками {X, p(x)} и {Y, p(y)}

I(X ;Y ) =∑

x∈Xy∈Y

p(x, y) logp(x, y)

p(x)p(y).

Теорема 3.1. Средняя взаимная информация между источниками X и Y удовлетворяет соотно-шению

0 6 I(X ;Y ) 6∑

y∈Y

x∈X

p(x, y) logp(y|x)p(y)

,

где p(.) любое другое распределение вероятностей на множестве сообщений Y . В нижней границеравенство достигается тогда и только тогда, когда источники {X, p(x)} и {Y, p(y)} статистиче-ски независимы.

Доказательство. Нижняя граница находится с помощью неравенства lnx 6 x− 1 следующим обра-зом:

−I(X ;Y ) =∑

y

x

p(y|x)p(x) log p(y)

p(y|x) =

= log e∑

y

x

p(y|x)p(x) ln p(y)

p(y|x) 6 log e∑

y

x

p(y|x)p(x)[ p(y)

p(y|x)]=

= log e{∑

y

x

p(x)p(y)−∑

y

x

p(y|x)p(x)}= 0

Равенство справедливо тогда и только тогда, когда p(x, y) = p(x)p(y) для всех x ∈ X и y ∈ Y .Верхняя граница для I(X ;Y ) вытекает из соотношения:

I(X ;Y ) =∑

y

p(y) log1

p(y)−∑

y

x

p(y|x)p(x) log 1

p(y|x) (3.1)

и предложения 2.1„ в котором утверждается, что

y

p(y) log1

p(y)6

y

p(y) log1

p(y),

причем равенство достигается тогда и только тогда, когда p(y) = p(y) для всех y ∈ Y .

Рассмотрим теперь источник {XYZ, p(x, y, z)}, который порождает различные условные и без-условные источники. Так p(x, y) =

∑z∈Z p(x, y, z) является безусловным распределением вероятно-

стей на парах (x, y) ∈ XY , p(x) =∑

y∈Y p(x, y) – безусловное распределение вероятностей на X .Далее,

p(x, y |z) = p(x, y, z)

p(z), p(z) 6= 0

– условное распределение вероятностей на XY при заданном фиксированном сообщении z ∈ Z и

p(y |x) = p(x, y)

p(y), p(x) 6= 0, p(y |xz) = p(x, y, z)

p(x, z), p(x, z) 6= 0

– условные распределения вероятностей на сообщениях y ∈ Y при фиксированном x ∈ X и (x, z) ∈ XZсоответственно.

Page 22: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

21

Введем условную взаимную информацию I(y; z |x) между сообщениями y ∈ Y и z ∈ Z приданном сообщении x ∈ X :

I(y; z |x) = I(y|x)− I(y|x, z) == logp(y |x, z)p(y |x) (3.2)

и взаимную информацию между парой сообщений (y, z) ∈ Y Z и сообщением x ∈ X :

I((y, z);x) = I(y, z)− I((y, z)|x) (3.3)

Воспользовавшись свойством аддитивности собственной информации, получим

I(x, y) = − log p(x, y) = − log[p(x)p(y|x)] = I(x) + I(y|x)

и

I((x, y)|z) = − log p(x, y|z) = − logp(x, y, z)

p(z)= − log

p(x, z)

p(z)− log

p(x, y, z)

p(x, z)= I(x|z) + I(y|x, z) .

Отсюда, а также из (3.2) и (3.3) находим

I((x, y); z) = I(x, y)− I((x, y)|z) = I(x) + I(y|x) − I(x|z)− I(y|x, z) = I(x; z) + I(y; z|x)или (3.4)

I((x, y); z) = I(y; z) + I(x; z|y) .

Эти соотношения называются свойством аддитивности собственной взаимной информации.

Определение 10. Математическое ожидание случайной величины I(x; y|z) источника{XYZ, p(x, y, z)} называется средней взаимной информацией между источниками X и Y относитель-но источника Z и обозначается через I(X ;Y |Z)

I(X ;Y |Z) =MI(x; y|z) =∑

x,y,z

p(x, y, z) logp(x|y, z)p(x|z) =

z

x,y

p(x, y|z)p(z) log p(x|yz)p(x|z) .

Для источника {XYZ, p(x, y, z)} определено также количество взаимной информацииI((x, y); z) между парой сообщений (x, y) ∈ XY и сообщением z ∈ Z.

Определение 11. Математическое ожидание случайной величины I((x, y); z) на источникеXY Z представляет собой среднюю взаимную информацию ежду источником XY и источником Z

I(XY ;Z) =∑

x,y,z

p(x, y, z) logp((x, y)|z)p(x, y)

.

Из свойства аддитивности (3.4) следует, что

I(XY ;Z) = I(X ;Z) + I(Y ;Z|X) = I(Y ;Z) + I(X ;Z|Y ),

а также из свойства (3.3) следует, что

I(XY ;Z) = H(XY )−H(XY |Z) = H(Z)−H(Z|XY ) .

Одно из важнейших свойств средней взаимной информации состоит в том, что она не увели-чивается при преобразовании.

Пусть ϕ(·) некоторое преобразование, отображающее множество X на другое множество, ска-жем Z, то есть Z = ϕ(X). Предположим также, что задан источник {XY, p(x, y)} и, тем самым,

Page 23: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

22

определена средней взаимной информации I(X ;Y ). Преобразование ϕ(·) определяет источник{ZY, p(z, y)}, для которого

p(z, y) =∑

x:ϕ(x)=z

p(x, y) .

Поэтому средняя взаимная информация I(Z;Y ) определена для каждого отображения ϕ(·) и прини-мает значения, определяемое выбором ϕ(·).

Теорема 3.2. Для любого отображения Z = ϕ(X) источника X в источник Z

I(X ;Y ) > I(Z;Y ) ,

причем равенство имеет место всегда, когда отображение обратимо, то есть каждому элементуz ∈ Z соответствует единственный элемент x ∈ X.

Доказательство. Рассмотрим множествоXY Z. Так как при выбранном сообщении x ∈ X сообщениеz ∈ Z однозначно определено и, следовательно, не зависит от сообщения y ∈ Y , то

p(z|x, y) = p(z|x) (3.5)

или p(x, y, z) = p(x, y)p(z|x) для всех (x, y, z) ∈ XY Z. При заданном x ∈ X с вероятностью 1 имеемz = ϕ(x), то есть

p(z|x) ={1, если z = ϕ(x) ,

0, если z 6= ϕ(x) .

Из условия (3.5) следует, что

I(z; y|x) = logp(z|x, y)p(z|x) = 0

для всех (x, y, z) ∈ XYZ, для которых p(x, y, z) 6= 0, а следовательно, I(Z;Y |X) = 0. Отсюда следует,что

I(XZ;Y ) = I(X ;Y ) + I(Z;Y |X) = I(X ;Y ) .

С другой стороны, в силу неотрицательности средней взаимной информации I(X ;Y |Z) имеем

I(XZ;Y ) = I(Z;Y ) + I(X ;Y |Z) > I(Z;Y ).

Поэтому

I(X ;Y ) > I(Z;Y ) .

Равенство здесь имеет место только в том случае, когда I(X ;Y |Z) = 0. Ясно, что последнее равенствовыполняется, если для всех (x, y, z) ∈ XY Z выполняется соотношение

p(x|yz) = p(x|z) .

Это условие всегда выполняется, если сообщение z однозначно определяет сообщение x, то есть еслисообщения x и z однозначно определяют друг друга. Иначе, если отображение ϕ(·) обратимо.

Свойство невозрастания средней взаимной информации можно трактовать следующим обра-зом. Пусть X – множество возможных сигналов на выходе некоторого канала связи, а Y – множестворазличных передаваемых сообщений. Теорема утверждает, что никакая обработка наблюдений, при

Page 24: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

23

которой происходит их преобразование, не может увеличить информацию об интересующем нас со-общении.

Очевидно, что теорема остается в силе в том случае, когда преобразование осуществляется надисточником Y , а также в том случае, когда осуществляется преобразование как источника X , так иисточника Y . Пусть U = ϕ(X)и V = ψ(Y ) – два отображения, заданные на X и Y соответственно.Тогда

I(X ;Y ) > I(U ;V ) .

Если оба отображения обратимы, то имеет место равенство.Пример 1. Пусть X = {0, 1} – множество сообщений на входе канала, Y = {0, 1} – множество

сообщений на выходе канала и переходы входных сообщений в выходные задаются с помощью гра-фа переходов. Вероятности p(0|1) = p(1|0) неправильных переходов будем считать одинаковыми иравными p. Описанный канал называется двоичным симметричным каналом (ДСК).

α

1− α

β

1− β

0 0

1 1

1− p

p

1− p

p

Рис. 3..1:

Вероятности входных сообщений на графе обозначены через α и 1−α, а выходных сообщений– через β и 1− β. По формуле полной вероятности находим

β = (1− p)α+ p(1α) .

Среднюю взаимную информацию I(X ;Y ) будем рассматривать как функцию двух параметров α и pи записывать ее как I(α, p).

Имеем

I(α, p) = H(Y )−H(Y |X) ,

где

H(Y ) = −β log β − (1− β) log(1− β) = h(β)

и

H(Y |X) =∑

i

p(xi)H(Y |xi) = H(Y |x1) = −p log p− (1− p) log(1− p) = h(p) ,

так как H(Y |xi) не зависит от xi. Таким образом, имеем

I(α, p) = h(β)− h(p) ,

Page 25: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

24

где β определяется через α.

Предположим, что p фиксировано и будем рассматривать I(α, p) как функцию параметра α.Поскольку h(β) выпуклая вверх функция, а β – линейная функция от α, то I(α, p) – выпуклая вверхфункция.

Пусть теперь зафиксирован параметр α , а p будем изменять. При α = 1/2 имеем β = 1/2 иI(1/2, p) = 1− h(p). Поэтому I(1/2, p) – выпуклая вниз функция. Если α 6= 1/2, то

d2

p2I(α, p) =

1

p(1− p) > 0,

и значит, I(α, p) – выпуклая вниз функция параметра p.

3.2 Постановка задачи кодирования в дискретном канале

В системах связи пару "источник – кодер источника"можно рассматривать как новый источникдискретных сообщений и пару "декодер – получатель"можно рассматривать в качестве получателясообщений. Сообщения источника на входе канала должны быть представлены в форме сигнала, тоесть кодированы, а на выходе канала – декодированы.

Для теории информации физическая природа сигналов и шумов является несущественной.Поэтому так же как при кодировании источников, будем рассматривать сигналы на входе и выходеканала как элементы некоторых абстрактных множеств.

Определение 12. Канал называется дискретным по входу (выходу), если множество входныхвыходных сигналов конечно.

Канал называется каналом с дискретным временем, если сигналы на входе и выходе представ-ляют собой конечные или бесконечные последовательности элементов алфавита X на входе каналаи алфавита Y на выходе канала.

Дискретный по входу и выходу канал с дискретным временем будем называть дискретнымканалом.

Наличие шума может привести к тому, что один и тот же входной сигнал канала может перей-ти в различные выходные сигналы. Такие переходы в теории информации описываются с помощьюусловных распределений вероятностей. В случае дискретного канала трансформация входных сиг-налов в выходные задаются условными вероятностями p(y|x). x ∈ X, y ∈ Y , получения на выходесигнала y, если на вход был послан сигнал x.

В дальнейшем X и Y будем рассматривать как множество сигналов на входе и выходе канала,которые появляются в некоторый фиксированный момент времени. Поэтому условные вероятности{p(y|x)} описывают процесс передачи одного сигнала. Однако по каналу, как правило, передаетсядостаточно длинная последовательность сигналов.

Определение 13. Будем говорить, что дискретный канал задан, если для любого целогоn и любых последовательностей (x(1), . . . , x(n) и (y(1), . . . , y(n) из элементов X и Y соответственнозаданы условные (переходные) вероятности p(y(1), . . . , y(n)|x(1), . . . , x(n) получения на выходе каналапоследовательности (y(1), . . . , y(n), если на входе была последовательность (x(1), . . . , x(n).

Определение 14. Дискретный канал называется каналом без памяти (ДКБП), если длялюбого n и любых последовательностей (x(1), . . . , x(n)) ∈ Xn и (y(1), . . . , y(n)) ∈ Y n имеет месторавенство

p(y(1), . . . , y(n)|x(1), . . . , x(n)) =n∏

i=1

p(y(i)|x(i)) .

Дискретный канал без памяти (ДКБП) будем обозначать через {XY, p(y|x)}, где X и Y –входные и выходные алфавиты, а p(y|x), x ∈ X, y ∈ Y , – переходные вероятности канала.

Page 26: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

25

Если задано некоторое входное распределение вероятностей, скажем, p(x), то оно вместе сусловными распределениями p(y|x) задает совместное распределение вероятностей на парах (x, y) ∈XnY n

p(x, y) = p(y|x)p(x)

и распределения вероятностей выходных последовательностей канала

p(y) =∑

x∈Xn

p(x)p(y|x) .

Пример 2. Пусть имеется двоичный симметричный канал (ДСК) без памяти, X = {0, 1},Y = {0, 1} и пусть p(0|1) = p(1|0) = p – вероятность передачи сигнала с ошибкой. Если x, y –последовательность длины n из нулей и единиц на выходе и входе канала, то

p(y|x) = pt(1− p)n−t ,

где t количество позиций, в которых последовательности x y различаются, то есть t – количествоошибок при передаче x и получении y. Предположим, что p < 0.5 и требуется передать одно из двухсообщений z1 и z2. Если закодировать сообщения как z1 → 0 и z2 → 1, то вероятность неправильногоприема сообщения равнялась бы p.

Рассмотрим другой способ кодирования (передачу с помощью повторений): если надо передатьz1, то по каналу передается последовательность из n нулей, если же надо передать z2, то по каналупередается последовательность из n единиц. Приемник работает по следующему правилу: если в при-нятой последовательности количество нулей больше количества единиц, то считается, что переданоz1, в противном случае считается, что передавалось z2.

Ясно, что ошибка декодирования возникает всякий раз, когда при передаче последовательностидлины n число ошибок t превосходит или равно n/2. Поэтому вероятность неправильного приемасообщения Pen определяется следующим образом:

Pen = P{t > n/2} =∑

i>n/2

Cinp

i(1− p)n−i .

Так как

{µn

n>

1

2

}=

{µn

n− p > 1

2− p

}⊂

{∣∣µn

n− p

∣∣ > 1

2− p > 0

},

то при возрастании n по теореме Бернулли вероятность ошибки Pen стремится к нулю:

Pen 6 P{∣∣µn

n− p

∣∣ > 1

2− p

}→ 0 при n→∞ .

Таким образом, вероятность неправильной передачи сообщений по каналу может быть сделана скольугодно малой, если это сообщение передавать достаточно большое количество раз. Время передачипри таком методе кодирования пропорционально числу повторений, При этом скорость передачи, тоесть количество информации, передаваемое в единицу времени, будет стремиться к нулю, так как завсе время передачи будет передано одно из двух сообщений или не более одного бита информации.

Мы покажем, что произвольно малая вероятность ошибки может быть достигнута и при ско-ростях передачи, отличных от нуля, за счет усложнения методов кодирования и декодирования.

Определение 15. Кодом длины n и объемом M для канала называется множество из M пар{u1, A1;u2, A2; . . . ;uM , AM}, где ui ∈ Xn, i = 1, . . . ,M – последовательности длины n, образованныевходными сигналами канала и называемые кодовыми словами (ui 6= uj при i 6= j), и Ai ⊂ Y n,i = 1, . . . ,M , – решающие области, образованные выходными последовательностями канала, причемпри i 6= j множества Ai и Aj не пересекаются.

Если задан код, то задано как множество кодовых слов, так и правило, по которому приемникпринимает решение о переданном кодовом слове: если на выходе канала появляется последователь-ность y и y ∈ Ai, то приемник принимает решение о том, что передавалось слово ui.

Page 27: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

26

Определение 16. Скоростью кода (или скоростью передачи) называется величина

R =1

nlogM

бит

симв,

где M – объем кода и n – длина кода.Скорость кода R представляет собой максимальное количество информации, которое может

быть передано с помощью одного сигнала (или символа). Такое количество информации передаетсяпо каналу, если кодовые слова имеют одинаковую вероятность появления. Скорость кода измеряетсяв битах на символ.

Отметим различие в определениях скорости кода канала и скорость равномерного кода источ-ника. В случае кода источника скорость определяется как отношение логарифма числа кодовых словк длине отрезков кодируемых сообщений. В случае кода канала скорость определяется как отноше-ние того же числа к длине кодовых слов. Код длины n со скоростью R имеет объем M = 2nR. Такойкод будем обозначать через G(n,R).

Пример 3. Предположим, что двоичный источник без памяти имеет энтропию H(X) < 1. Какизвестно, при кодировании сообщений такого источника можно достичь скорости близкой к H(X).Это означает, что при появлении на входе кодера источника n двоичных символов, где n достаточ-но велико, на выходе кодера появляется примерно nH(X) двоичных символов, что меньше, чем n.Если теперь рассматривать последовательности длины nH(X) как входные сообщения для кодерадвоичного канала, осуществляющего кодирование со скоростью R < 1, то длина кодовых слов бу-

дет равна nH(X)R , что больше, чем nH(X). Таким образом, кодирование источника понижает длину

последовательностей сообщений, а кодирование в канале её увеличивает, то есть кодирование ис-точника устраняет избыточность, а кодирование в канале вводит избыточность. Последовательноеприменение этих двух операций в большинстве случаев увеличивает эффективность по сравнению спередачей сообщений без кодирования.

Ошибка декодирования слова ui возникает, когда последовательность на выходе канала непринадлежит решающей области Ai. Через λi обозначим ошибку в декодировании слова ui

λi =∑

y∈Ai

p(y|ui) .

Мерой надежности канала является средняя вероятность ошибки

λ =

M∑

i=1

λip(ui) ,

где p(ui) – вероятность передачи i-го кодового слова. Так как распределение вероятностей p(ui),i = 1, . . . , n, характеризует источник сообщений и никак не связано ни с каналом, ни с кодом, то подсредней вероятностью ошибки декодирования будем иметь ввиду

λ =1

M

M∑

i=1

λi .

В случае оптимального кодирования источника, когда p(ui) = 1/M , i = 1, . . . ,M , оба определениясредней вероятности ошибки декодирования совпадают.

В качестве другой количественной меры надежности передачи с помощью кода G(n,R) исполь-зуется максимальная вероятность ошибки.

Λ = max{λ1, . . . , λM} .Определение 17. Пропускной способностью дискретного канала называется максимальное

число C такое, что для любого сколь угодно малого δ, δ > 0, и любого R, R < C, существует кодG(n,R) такой, что средняя вероятность ошибки удовлетворяет неравенству

λ < δ (3.6)

Page 28: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

27

Так как C является верхней гранью скоростей кодов, для которых выполняется неравенство (3.6),значит, для любого R, R > C, существует δ′ > 0 такое, что λ > δ′ для любого n и любого кода G(n,R).

3.3 Информационная емкость дискретных каналов без па-

мяти

Пусть p(y|x), x ∈ X, y ∈ Y , – переходные вероятности задающие дискретный канал безпамяти. По определению такого канала

p(y|x) =n∏

i=1

p(y(i)|x(i))

для любых последовательностей x ∈ Xn и y ∈ Y n, x = (x(1), . . . , x(n)), y = (y(1), . . . , y(n)).Средняя взаимная информация между последовательностями на входе и выходе канала имеет

вид

I(Xn;Y n) =∑

x

y

p(y|x)p(x) log[p(y|x)/p(y)] ,

где p(y) =∑

x∈Xn p(y|x)p(x).Для любого распределения вероятностей p(x), x ∈ Xn, на входе канала введем распределения

вероятностей по каждой компоненте последовательности x, полагая

pi(x(i)) =

x(1)

· · ·∑

x(j)

j 6=i

· · ·∑

x(n)

p(x) .

Распределения вероятностей pi(x), x ∈ X , порождают источники Xi = {X, pi(x)} и Yi = {Y, pi(y)} навходе и выходе канала, где pi(y) =

∑x∈X p(y|x)pi(x).

Поскольку рассматривается канал без памяти средняя взаимная информация между источни-ками Xi и Yi запишется в виде

I(Xi;Yi) =∑

y

x

p(y|x)pi(x) log[p(y|x)/pi(y)] .

Определение 18. Информационная емкость C∗ дискретного канала без памяти определя-ется соотношением

С∗ = max{p(x)}

I(X,Y ) ,

где максимум берется по всем входным распределениям вероятностей p(x) на X .

Лемма 3.1. Для произвольного входного распределения p(x), x ∈ Xn выполняется неравен-ство

I(Xn;Y n) 6

n∑

i=1

I(Xi;Yi) 6 nC∗ .

Нижняя граница в равенстве достигается тогда, когда источники Xi, i = 1, . . . , n, статистическинезависимы, а равенство в верхней границе достигается тогда и только тогда, когда для распреде-лений вероятностей по отдельным составляющим на входе канала достигается информационнаяемкость канала.

Page 29: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

28

Доказательство. Пусть p(x) – произвольное распределение вероятностей на входе дискретного ка-нала без памяти. Имеем

I(Xn;Y n) = H(Y n)−H(Y n|Xn) =

= H(Y n) +∑

x∈Xn

y∈Y n

p(x)p(y|x) logn∏

i=1

p(y(i)|x(i)) =

= H(Y n) +

n∑

i=1

x∈Xn

y∈Y n

p(x)p(y|x) log p(y(i)|x(i)) =

= H(Y n) +

n∑

i=1

x(i)∈Xi

y(i)∈Yi

pi(x(i))p(y(i)|x(i)) log p(y(i)|x(i)) =

= H(Y n)−n∑

i=1

H(Yi|Xi) 6

n∑

i=1

H(Yi)−n∑

i=1

H(Yi|Xi) =

n∑

i=1

I(Xi;Yi) . (3.7)

В неравенстве (3.7) имеет место знак равенства, если источники Y1, . . . , Yn статистически независимы,то есть если

p(y) =

n∏

i=1

pi(y(i))

для всех y ∈ Y n. Для дискретного канала без памяти это выполняется, если выбрать

p(x) =

n∏

i=1

pi(x(i)) .

Действительно, в этом случае

p(y) =∑

x∈Xn

p(x)p(y|x) =∑

x(1)∈X1

. . .∑

x(n)∈Xn

n∏

i=1

pi(x(i))p(y(i)|x(i)) =

=

n∏

i=1

x(i)∈Xi

pi(x(i))p(y(i)|x(i)) =

n∏

i=1

pi(y(i)) .

Далее, для произвольного входного распределения p(x), x ∈ Xn, имеем

I(Xn;Y n) 6

n∑

i=1

max{pi(x(i))}

I(Xi;Yi) = n max{p(x)}

I(X ;Y ) = nC∗ .

Если p(x), x ∈ X , – распределение вероятностей на входе канала такое, что на нём достигаетсяинформационная емкость канала, тогда для распределения

p(x) =

n∏

i=1

p(x(i))

выполняется соотношение

I(Xn;Y n) =

n∑

i=1

I(Xi;Yi) = n max{p(x)}

I(X ;Y ) = nC∗ .

Лемма доказана.

Page 30: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

29

Пример 4. (Информационная емкость двоичного симметричного канала.) В обозначенияхпримера 1 имеем, что I(X ;Y ) = I(α, p) = h(β) − h(p). Функция h(β) достигает максимума, рав-ного 1, при β = 1/2. Для ДСК распределение на выходе канала будет равномерным, если равномернораспределение на входе канала. Поэтому

C∗ = 1− h(p) .

Пример 5. (Информационная емкость двоичного симметричного канала со стиранием.)Пусть X = {0, 1} – множество элементарных сообщений на входе канала и Y = {0, 1, ∗} — сигналына выходе канала. Если полученный сигнал не поддается расшифровке, то его лучше стереть. Всимметричном канале вероятность стирания символов 0 и 1 одинакова и равна q. Если стирания непроизошло, то оба сигнала 0 и 1 с одинаковой вероятностью 1−p−q будут правильно расшифрованы,а с вероятностью p будет иметь место ошибка. Так как

H(Y |0) = H(Y |1) = H(Y ;X) = −(1− p− q) log(1 − p− q)− p log p− q log q ,

средняя взаимная информация между источниками X и Y равна

I(X ;Y ) = H(Y ) + (1− p− q) log(1− p− q) + p log p+ q log q .

Пусть {α, 1−α} распределение вероятностей на входе канала. Тогда по формуле полной вероятностинаходим , что на выходе канала

β1 = p(0) = α(1 − p− q) + (1− α)p и β2 = p(1) = (1− α)(1 − p− q) + αp .

Заметим, что β1 + β2 = 1− q.Энтропия H(Y ) = −β1 log β1 − β2 log β2 − q log q максимальна, если максимально выражение

−β1 log β1−β2 log β2, где β1+β2 = 1−q. Легко проверить, что максимум этого выражения достигаетсяпри β1 = β2 = (1 − q)/2. Можно убедиться, что соотношение β1 = β2 = (1 − q)/2 выполняется, еслипринять α = 1/2. Поэтому

Hmax(Y ) = −21− q2

log1− q2− q log q .

Подставляя это выражение в I(X ;Y ) найдем максимальное значение средней взаимной информации,равной информационной емкости канала со стиранием

C∗ = −(1− q) log 1− q2

+ (1− p− q) log(1− p− q) + p log p (бит/симв).

В случае p = 0 информационная емкость канала равна C∗ = 1− q (бит/симв).

3.4 Методы декодирование

Декодирование по максимуму правдоподобия (МП-декодирование). Рассмотрим некоторый ДК-БП канал {XnY n, p(x, y} и обозначим через u1, . . . uM , ui ∈ Xn, его кодовые слова. Предположим,что набор кодовых слов фиксирован. Укажем решающие области A1, . . . AM , Ai ⊂ Y n, при которыхсредняя вероятность ошибки декодирования минимизируется.

Правило декодирования w будем рассматривать как результат отображения источника Y n вмножество кодовых слов. При МП-декодировании заданному y ∈ Y n ставится в соответствие кодовоеслово с индексом j, wМП(y) = uj , наименьшим среди чисел i = 1,M , на котором достигается максимум

maxi∈1,M

p(y|ui) = p(y|uj) . (3.8)

Для j = 1,M определим

AМПj = {y : wМП(y) = uj} ,

Page 31: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

30

Для любого другого кода канала вероятность ошибки при передаче слова ui равна

λi =∑

y∈Ai

p(y|ui) .

Поэтому вероятность принятия правильного решения

1− λ = 1− 1

M

M∑

k=1

λi

можно оценить следующим образом

1− λ =1

M

M∑

k=1

y∈Ai

p(y|ui) =1

M

y∈M⋃

i=1

Ai

p(y|w(y)) 6

61

M

y∈Y n

p(y|wМП(y)) = 1− PМПen .

Из этого неравенства следует, что МП-декодирование минимизирует вероятность ошибки.Пример 6. Рассмотрим МП-декодирование в стационарном двоичном симметричном (ДСК) ка-

нале. Предположим, что в этом канале вероятность ошибки при передаче одного сигнала p < 12 . Пусть

x = (x(1, . . . , x(n)) и y = (y(1, . . . , y(n)). Тогда

p(y|x) =n∏

i=1

p(y(i)|x(i)) = pt(1− p)n−t ,

где t – количество позиций, в которых последовательность x отличается от последовательности y. Такак

pt+1(1− p)n−t−1

pt(1− p)n − 1=

p

1− p < 1 ,

то в случае МП-декодирования последовательность y отображается в то слово используемого кода,которому соответствует минимальное значение t.

Количество позиций, в которых последовательность x отличается от последовательности y, на-зывается расстоянием Хемминга между x и y. Поэтому МП-декодирование в ДСК канале отображаетвыходную последовательность канала в такое кодовое слово, которое находится на минимальном рас-стоянии Хемминга от него, то есть декодирование происходит по минимуму расстояния Хемминга.

Пример 7. Рассмотрим МП-декодирование в стационарном симметричном стирающем канале.Предположим, что в рассматриваемом канале вероятность ошибки равна p и вероятность стиранияравна q, причем q + 2p < 1. Имеем

p(y|x) =n∏

i=1

p(y(i)|x(i)) = ptqs(1− p− q)n−s−t , (3.9)

где s – число стираний в последовательности y и t – количество нестертых позиций в которых после-довательности x и y отличаются.

Число s определяется только каналом и не зависит от передаваемого кодового слова. Прификсированном s и при q+2p < 1 правая часть (3.9) убывает с ростом t. Поэтому МП-декодированиев двоичном симметричном стирающем канале отображает выходную последовательность канала втакое кодовое слово, которому соответствует минимальное значение t, то есть МП-декодированиепри фиксированном s определяется по минимуму расстояния Хемминга на нестертых позициях.

Page 32: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

31

МП-декодирование со стиранием. При заданном y ∈ Y n положим wМП(y) = uj , если существуетединственное j, j = 1,M , для которого достигается максимум в (3.8), и откажемся от принятиярешения, если y /∈ Aj для всех j = 1,M .

Для мягкого МП-декодирования обозначим через χm(y), m = 1,M характеристическую функ-цию множества

AМПm = {y : wМП(y) 6= um} .

Можем записать, что

χm(y) =

{1, если существует m′ 6= m такое, что p(y|um′) > p(y|um);

0, если для любого m′ 6= m выполняется p(y|um′) < p(y|um) .

В этом случае условная вероятность ошибки примет вид

λm =∑

y

p(y|um)χm(y) .

Пороговое декодирование. Рассмотрим дискретный канал, задаваемый переходными вероятно-стями p(y|x), x ∈ Xn, y ∈ Y n. Пусть p(x), x ∈ Xn, – некоторое распределение вероятностей на входныхпоследовательностях канала и I(x; y) – взаимная информация между двумя последовательностямиx ∈ Xn и y ∈ Y n, имеющая вид

I(x; y) = logp(y|x)p(y)

,

где p(y) =∑x∈Xn p(y|x)p(x). Рассмотрим пороговое декодер, который работает следующим образом.

Для принятой последовательности y декодер вычисляет статистику

θ(i) = I(ui; y)

для каждого подового слова ui, i = 1, . . . ,M . Декодер сравнивает все значения статистики θ(i) счислом Tn, где T – некоторый фиксированный параметр (порог). Если имеется единственное значениеi = j, для которого θ(j) > Tn, то декодер принимает решение , что передавалось кодовое слово ui. Впротивном случае декодер производит стирание.

Для данного способа принятия решения при передачи кодового слова um ошибочное решение(необнаруженная ошибка) принимается тогда и только тогда, когда статистика θ(m) 6 Tn и суще-ствует ровно одно значение m′ 6= m, для которого θ(m′) > Tn. Правильное решение при передачеслова um принимается тогда и только тогда, когда статистика θ(m) > Tn и для всех значений m′ 6= mстатистика I(m′) 6 Tn.

Для рассматриваемого порогового декодирования область декодирования A(T )m , m = 1,M , при

использовании порога T > 0 задается следующим образом

A(T )m = {y : θ(m) > Tn, и для всех m′ 6= m ввыполняется неравенство θ(m) 6 Tn} .

Пример 8. Пороговое декодирование для ДСК с вероятностью ошибки p, 0 < p < 1/2. В каче-стве распределения вероятностей выберем равномерное распределение на входе канала. Тогда распре-деление вероятностей на выходе канала также будет равномерным, В частности, p(y = 2−n. Поэтому

I(x; y) = n(1 + log(1− p)) + d(x, y) logp

1− p , 0 < p < 1/2 .

Выберем порог T и положим

T ∗ =1 + log(1− p)− T

log 1−pp

,

Тогда решающая область будет иметь вид

A(T )m = {y : d(um, y) < T ∗n), для других m′ 6= m выполняется неравенство d(um′ , y) > T ∗n) .

Page 33: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

32

3.5 Помехоустойчивое кодирование в ДСК

Рассмотрим двоичный симметричный канал (ДСК) без памяти с алфавитомX = {0, 1} на входеканала и алфавитом Y = {0, 1} на выходе канала и пусть p(0|1) = p(1|0) = p < 1/2 — вероятностьпередачи сигнала с ошибкой.

Определение 19. Код длиной n и объемом M называется избыточным, если M < 2n.При использовании кода без избыточности появление ошибки в любом из принятых слов остаетсянезамеченным, поскольку изменение символа хотя бы в одном разряде приводит к одному из ко-довых слов. Возможность выявления ошибки в принимаемых кодовых словах появляется только вслучае избыточности кода. Будем называть используемые кодовые последовательности (блоки) раз-решенными, а остальные (N − M) блоков — запрещенными. Если последовательность на выходеДСК оказывается запрещенной, то это свидетельствует об ошибке при приеме. Существует ненуле-вая вероятность, что принятая последовательность является другим разрешенным кодовым словом.При выборе помехоустойчивого кода стремятся к тому, чтобы вероятность такого события была какможно меньше.

Введем код {u1, A1; . . . ;uM , AM} длиной n и объемом M , и функцию принятия решения w(y),y) ∈ Y n.

При декодировании принятые запрещенные кодовые слова преобразуются декодером в разре-шенные по определенному правилу: если y ∈ Ai, то w(y) = ui. Выбрав подходящим образом решаю-щие области, при декодировании появится возможность исправить ошибки, допущенные при передачекодовых слов по каналу с шумом.

Если через um обозначим кодовое слово um как элемент Y n, то при декодировании по макси-муму правдоподобия um ∈ Am, так как при p < 1/2 для всех t = 1, . . . , n выполняется неравенствоp(um|um) = (1−p)n > pt(1−p)n−t. Поэтому Am состоит из последовательности um и соответствующихкодовому слову запрещенных блоков, которые декодируются в кодовое слово um. Может случитьсятак, что Am

⋂Am′ 6= ∅, то есть найдется y минимально равноудаленный по Хеммингу от um и um′ .

Поэтому в некоторых случаях МП-декодер не в состоянии однозначно распознать переданное кодовоеслово.

Введем понятие кодового расстояния.

Определение 20. Наименьшее из расстояний между любыми парами используемых кодовыхслов кода G = G(n,R) называется кодовым расстоянием и обозначается через d(G).

При МП-декодировании в ДСК исправляющая способность кода характеризуется теоремойХемминга.

Теорема 3.3. Код в ДСК при декодировании по наименьшему расстоянию Хемминга исправляетлюбые t и менее ошибок в каждом принятом кодовом слове тогда, когда кодовое расстояние d(G)удовлетворяет неравенству d(G) > 2t+ 1.

Доказательство. Если d(G) > 2t+1, то для любых кодовых слов ui и uj имеем d(ui, uj) > 2t+1. Пустьпри передаче некоторого кодового слова uk произошло r 6 t ошибок, в результате чего было принятослово y. Тогда d(uk, y) = r 6 q и в то же время расстояние до любой другой последовательности uiбольше t. Последнее вытекает из неравенства треугольника

d(uk, y) + d(ui, y) > d(uk, ui) > 2t+ 1 .

Значит для правильного декодирования принятого слова y необходимо найти кодовое слово u ∈ G,ближайшее в смысле расстояния Хемминга, если число ошибок в принятом слове действительно непревосходит t.

Пусть условие d(G) > 2t нарушается и найдутся кодовые слова ui и uj расстояние междукоторыми d(ui, uj) = 2t. Допустим, что было передано слово ui. Заменим в слове ui t разрядов насоответствующие разряды из uj , в которых кодовые слова ui и uj различаются. Получим последо-

вательность y, удаленную от ui на расстояние t, d(ui, y) = t. Тогда d(uj , y) = d(ui, y) = t и при

Page 34: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

33

декодировании слова y может быть также отождествлено с кодовым словом uj . Поэтому в этом слу-чае нельзя определить какое на самом деле слово было передано.

Поскольку вероятность ошибки кратности t в ДСК определяется биномиальным распределе-нием

Pen(t) = Ctnp

t(1− p)n−t,

вероятность ошибки декодирования

Pen 6

n∑

t=[d(G)/2]

Pen(t) =

n∑

t=[d(G)/2]

Ctnp

t(1 − p)n−t .

Декодирование по минимому расстояния Хэмминга невозможно, если получено кодовое слово,не совпадающее с посланным кодовым словом. Пусть Ai – число кодовых слов (n, k) кода C веса i,тогда вероятность необнаруженной ошибки Pr равно

Pr =

n∑

t=d(G)

At pt(1 − p)n−t .

Пример 9. Пусть код G состоит из четырех слов 00000, 01011, 10110 и 11101, так что каждыедва слова отличаются не менее чем в трех разрядах, d(G) = 3. Согласно теореме декодер можетисправить одиночную ошибку в любом разряде. При декодировании по наименьшему расстояниюХемминга каждому из 28 неразрешенных блоков нужно поставить в соответствие наиболее близкоекодовое слово.

В таблице под каждым кодовым словом выписываются все возможные блоки, отличающиесяот кодового слова в одном разряде.

00000 01011 10110 1110110000 11011 00110 0110101000 00011 11110 1010100100 01111 10010 1100100010 01001 10100 1110000001 01010 10111 11100..... ..... ..... .....

10001 11010 00111 0110011000 10011 01110 00101

Оставшиеся 8 неразрешенных блоков отличаются от каждого кодового слова не менее чем вдвух разрядах. Однозначно их в таблице разместить нельзя. Так блок 10011 находится во 2-м столбцетаблицы и в 3-м столбце строки: 00101 01110 10011 11000.

При декодировании по наименьшему расстоянию нужно найти столбец, в котором содержитсяпринятый блок и выбрать кодовое слово, находящееся в верхней строке этого столбца.

Поэтому задача помехоустойчивого кодирования состоит в поиске кода, обладающего макси-мальным кодовым расстоянием d(G) при заданной длине n и числе M кодовых слов.

В общем виде задача помехоустойчивого кодирования решения не имеет. Рассмотренный таб-личный метод декодирования даже при умеренных n на практике не реализуем. Поэтому основнымнаправлением современной теории кодирования является поиск кодов, для которых кодирование идекодирование осуществляются на основе алгебраических принципов, без перебора. К числу такихкодов относятся линейные коды, в частности, циклические коды.

Page 35: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

34

3.6 Прямая и обратная теорема кодирования для дискрет-

ного канала без памяти

Пусть задан дискретный канал, то есть заданы множества входных X и выходных Y сигналов,а также при всех n = 1, 2 . . . заданы условные распределения вероятностей p(y|x), y ∈ Y n, x ∈ Xn.Предположим, что для передачи по каналу используется код G(n,R) = {u1, A1;u2, A2; . . . ;uM , AM}длины n и объема M = 2nR, где A1, . . . , AM — решающие области. Введем в рассмотрение среднюювероятность ошибки λ(G):

λ(G) =1

M

M∑

i=1

y∈Aci

p(y|ui) , (3.10)

где Aci — дополнение Ai.Обозначим через p вероятностный вектор (p(x1). . . . , p(xL)) и положим

E0(ρ, p) = − log∑

y∈Y

[ ∑

x∈X

p(x)p(y|x)1/(1+ρ)]1+ρ

.

Функция E0(ρ, p) называется функцией Галлагера. Введем функцию

E(R) = maxρ,p

(− ρR+ E0(ρ, p)

),

где максимум разыскивается по всем ρ, 0 6 ρ 6 1 и по всем распределениям {p(x)} на X .

Теорема 3.4. (Прямая теорема кодирования.) Для произвольного дискретного канала без памяти{XY, p(y|x)} существует код со скоростью R, для которого средняя вероятность ошибки декодиро-вания удовлетворяет неравенству

λ 6 2−nE(R) , (3.11)

где n – длина кода, а экспонента случайного кодирования зависит только от матрицы переходныхвероятностей канала и от скорости кода, причем E(R) > 0 при всех R, 0 6 R 6 C∗, где C∗ —информационная емкость канала.

Теорема 3.5. (Обратная теорема кодирования для каналов без памяти.) Пусть C∗ – информаци-онная ёмкость дискретного канала и R = C∗ + ε, где ε – произвольное положительное число. Тогдасуществует положительное число δ, зависящее от R, такое, что для всякого кода G(n,R) средняявероятность ошибки λ удовлетворяет неравенству

λ > δ .

Следствием двух последних теорем кодирования является теорема кодирования Шеннона дляканалов без памяти.

Теорема 3.6. Пусть C — пропускная способность канала без памяти, то есть такое число,что для каждого R < C существует код G(n,R) со средней вероятностью ошибки, меньшей чемзаданное наперед произвольное положительное число, и что для любого R > C не существует кодас таким свойством. Пусть C∗ — информационная емкость канала, равная

C∗ = maxp

I(X ;Y ) .

Тогда C = C∗.

Page 36: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

35

3.7 Теорема Шеннона для ДСК канала

Рассмотрим двоичный симметричный канал. Пусть 0 < p < 1/2 есть вероятность невернойпередачи символа по каналу связи. Пусть C - двоичный код с M равновероятными кодовыми словамиu1, . . . , uM длины n. Пусть λi - вероятность неправильного декодирования кодового слова ui. Тогдасредняя вероятность ошибки декодирования λ определим как

λ = λC(p) =1

M

M∑

i=1

λi ,

где λi зависит от p. Рассмотрим совокупность L всех двоичных кодов длины n мощности M и опре-делим

λ∗(M,n, p) = minC∈L{λC}.

Как нам известно, скорость кода R длины n мощности M определяется как (logM)/n, а ин-формационная емкость двоичного симметричного канала с вероятностью ошибки p равна

C∗ = C∗(p) = 1− h(p) = 1|p log p+ (1− p) log(1− p)

.

Теорема 3.7. Для любой сколь угодно малой величины ε и любого 0 < R < C∗(p) существуетдвоичный код C длины n мощности M и скорости R такой, что средняя вероятность ошибкидекодирования λC < ε.

Иначе говоря, для достаточно больших n существует хороший код длины n со скоростью скольугодно близкой к пропускной способности канала связи.

Нам потребуется несколько вспомогательных утверждений.При передачи информации по двоичному симметричному каналу число ошибок в получен-

ном слове является биномиально распределенной случайной величиной ν, принимающей значения0, 1, . . . , n с математическим ожиданием Mν = np и дисперсией Dν = np(1−p). Если в кодовом словепроизошло t ошибок, то вероятность получить вектор ошибок e веса t равна pt(1− p)n−t.

Выберем произвольное ε > 0. Для случайной величины ν введем следующую величину

b =(Dνε/2

)1/2

.

Согласно неравенству Чебышева, имеем

P{|τ −Mν| > b} 6 Dν

b2=ε

2.

Отсюда следует

P{ν > ρ} 6 ε

2, (3.12)

где

ρ =[Mν + b

]=

[np+

(np(1− p)ε/2

)1/2].

Таким образом, вероятность того, что в результате ν ошибок полученное на приеме слово y находитсяот переданного кодового слова u на расстояние большее, чем ρ, мала.

При фиксированном ε > 0 для достаточно больших n величина ρ не превосходит n/2, посколькуp < 1/2.

Рассмотрим шар радиуса [pn] с центром в некоторой точке u ∈ Fn2 :

B[pn](x) = {y ∈ Fn2

∣∣∣ dH(u, y) 6 [pn]}.

Оценим объем шара.

Page 37: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

36

Лемма 3.2. Пусть 0 6 p 6 12 . Тогда верна оценка

[np]∑

i=0

Cin 6 2nh(p) .

Доказательство. Имеем

1 = (p+ (1− p))n >

[np]∑

i=0

Cinp

i(1− p)n−i>

[np]∑

i=0

Cinp

np(1− p)n−pn =

[np]∑

i=0

Cin2

log[(1−p)n(

p

1−p

)np

] =

[np]∑

i=0

Cin2

n log(1−p)+pn log(

p

1−p

)=

[np]∑

i=0

Cin2

n(p log p+(1−p) log(1−p)) = 2−nh(p)

[np]∑

i=0

Cin .

Отсюда следует[np]∑

i=0

Cin 6 2−nh(p) .

Оценим теперь объём шара радиуса ρ =[Mν + b

]с центром в некоторой точке, используя

функцию энтропии h(p).

Лемма 3.3. Пусть 0 6 p 6 12 и ρ = [Mν + b], где b =

(Dνε/2

)1/2

. Тогда

1

nlog |Bρ(u)| 6 h(p) +O

( 1√n

)при n→∞.

Доказательство. По предыдущей лемме имеем

1

nlog |Bρ(u)| 6 h

( ρn

)= − ρ

nlog

ρ

n−(1− ρ

n

)log

(1− ρ

n

)=

= − [np+ b]

nlog

[np+ b]

n−(1− [np+ b]

n

)log

(1− [np+ b]

n

)=

−p log p− (1− p) log(1− p) +O( bn

)= h(p) +O

( 1√n

)при n→∞.

что доказывает лемму.

Перейдем к доказательству теоремы Шеннона для кодирования в двоичном симметричномзашумленном канале.

Введем функцию f(y, x). Пусть y, x ∈ Fn2 , тогда

f(y, x) =

{0, d(y, x) > ρ

1, d(y, x) 6 ρ .(3.13)

Функция f(y, x) – характеристическая функция принадлежности вектора y шару Bρ(x) с центром вточке x.

Page 38: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

37

Доказательство. Выберем сколь угодно малую величину ε > 0. Рассмотрим случайный двоичныйкод длины n мощности M , то есть выберем случайным образом кодовые слова u1, . . . , un. Декодируемполученный вектор y следующим образом: если существует в точности одно кодовое слово ui такое,что

d(ui, y) 6 ρ,

то y декодируем в ui, в противном случае регистрируем ошибку или, если должны декодировать влюбом случае, всегда декодируем в u1.

Пусть λi, как и выше, вероятность того, что на выходе декодера получено слово, отличное отпереданного слова ui. Для λi имеем следующую оценку сверху:

λi =∑

y:d(ui,y)>ρ

P (y|ui) 6∑

y∈Fn2

P (y|ui)[1− f(y, ui) +

j 6=i

f(y, uj)]=

y∈Fn2

P (y|ui)(1− f(y, ui)) +∑

y∈Fn2

j 6=i

P (y|ui)f(y, uj),

здесь выражение[1− f(y, ui)+

∑j 6=i f(y, uj)

]равно нулю тогда и только тогда, когда найдется един-

ственное кодовое слово ui такое, чтоd(ui, y) 6 ρ,

в противном случае[1− f(y, ui) +

∑j 6=i f(y, uj)

]> 1.

Первая сумма в предыдущем неравенстве равна вероятности того, что полученное на выходеслово нвходится на расстоянии большем ρ от переданного кодового слова ui. Согласно неравенству(3.12) вероятность не превышает ε/2. Таким образом,

λC(p) 6ε

2+

1

M

M∑

i=1

y∈Fn2

j 6=i

P (y|ui)f(y, uj).

Основная идея дальнейшего доказательства состоит в том, что величина λ∗(M,n, p) меньшематематического ожидания λC над ансамблем L всех возможных кодов C длины n и мощности Mвзятых случайно. Отсюда имеем

λ∗(M,n, p) 6ε

2+

1

M

M∑

i=1

y∈Fn2

j 6=i

M(P (y|uj))M(f(y, uj)) =

ε

2+

1

M

M∑

i=1

y∈Fn2

j 6=i

|Bρ|2n

M(P (y|uj)) =

ε

2+|Bρ|M · 2n

M∑

i=1

y∈Fn2

M∑

j=1,j 6=i

M(P (y|uj)) =

ε

2+|Bρ|M · 2n

M∑

i=1

M∑

j=1,j 6=i

M( ∑

y∈Fn2

P (y|uj))=

ε

2+|Bρ| ·B · (M − 1)

M · 2n 6ε

2+M

|Bρ|2n

.

Таким образом, λ∗(M,n, p)− ε2 6M · |Bρ|/2n. Логарифмируя обе части, применяя последнюю лемму

и деля на n получаем

1

nlog

(λ∗(M,n, p)− ε

2

)6

1

nlogM − (1 − h(p)) +O

( 1√n

).

Page 39: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

38

Подставляя M = 2[R·n] в правую часть (вспомним, что по условию число R скольугодно близко кпропускной способности канала C(p) = 1− h(p)), получаем

1

nlog

(λ∗(M,n, p)− ε

2

)< −β < 0 ,

где β константа, равная С(p) − R. Отсюда λ∗(M,n, p) < ε2 + 2−βn. Начиная с некотороо n будет

выполняться 2−βn < ε2 , и, следовательно, λ∗(M,n, p) < ε. Таким образом,

λ∗(M,n, p)→ 0 при n→∞.

Теорема доказана.

Page 40: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

Глава 3

Конспект лекций по теории кодирования

4.1 Линейные коды

I. Пусть Fq, (q − простое) – конечное поле, k < n и F kq → Fn

q – инъективное линейное

отображение векторного пространства F kq в пространство Fn

q . Вектора a ∈ F kq будем называть ин-

формационными словами (векторами). Символом C, будем обозначать образ пространства F kq при

этом отображении. C является линейным подпространством в пространстве Fnq . Будем называть его

(n, k)-пространством кодовых слов. Матрицу G из компонент базисных векторов кодового простран-ства будем называть порождающей матрицей. Фиксируем в F к

q базис и представим информационный

вектор a в виде a = a1, · · · < ak. В матричнов представлении кодовое отображение запишется в виде

C ∋ c = a ·G, G− k × n− матрица

II. В пространстве Fnq введено скалярное “произведение” (a, b) =

∑ni=1 aibi. Для введенного

произведения не выполняется первая аксиома скалярного произведения: ненулевой вектор a можетбыть ортогонален самому себе. Через C⊥ обозначим ортогональное дополнение пространства C в Fn

q .

Из компонент базисных векторов в C⊥ составим (n − k) × n-матрицу H , называемую проверочнойматрицей. Для любого вектора c ∈ C имеем c ⊥ b ∈ C⊥. Поэтому Hct = 0. Более того, для любогоc = aG выполняется равенство HGtat = 0. Поэтому HGt = GHt = 0. Порождающая и проверочнаяматрица линейного кода определяются неоднозначно.

Если G – порождающая матрица (n,k) кода C в Fnq и H – проверочная матрица, то H является

порождающей матрицей двойственного (n,n-k) кода C⊥ с проверочной матрицей G.III. Перестановка строк и сложение строки с другой строкой в порождающей матрице не из-

меняют кодового пространства. Перестановка столбцов в порождающей матрице приводит к пере-становке компонент кодовых векторов. Коды, полученные фиксированной перестановкой компоненткодовых слов будем называть эквивалентными, а перестановку строк, сложение строк и перестановкустолбцов порождающей матрицы будем называть элементарными преобразованиями.

Элементарными преобразованиями порождающая матрица приводится к систематическому ви-ду

G =[Ek× k : Pk× (n−k)

]

Для порождающей матрицы в систематическом виде несложно построить одну из проверочных мат-риц

H =[− P t

(n−k)×n : I(n−k)× (n−k)

]

Если G представлена в систематическом виде, то первые k символов кодового слова являются ин-формационными символами.

Теорема 3.8. Каждый линейный код эквивалентен систематическому линейному коду.

IV. Вес Хэмминга w(x) вектора x равен числу ненулевых компонент. Расстояние ХэммингаdH(x, y) равно числу различающихся компонент векторов x и y. В линейном пространстве вес Хэм-минга и расстояние Хэмминга связаны соотношениями

dH(x, y) = w(x− y), w(x) = dH((x, 0).

Расстояние Хэмминга является метрикой

Page 41: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

40

V. Предположим, что на вход канала подан информационный вектор c и на выходе каналаполучен вектор y. Вектор e = y − c называют вектором ошибки. Пусть t ∈ N.

Определение. Код C исправляет t ошибок, если для любого вектора y ∈ Fnq существует не

более одного кодового вектора c, для которого dH(c, y) 6 t.Другими словами, если при передачи по каналу кодового слова c допущено t ошибок, то c,

будет ближайшим к полученному слову.Введем минимальное кодовое расстояние как

dC = minu,v∈Cu6=v

dH(u, v) = minc∈C

c 6=0

w(c) .

Теорема 3.9. (Хэмминг.) Код с dC > 2t+ 1 может исправить не менее t ошибок.

VI. Сформулируем лемму о проверочной матрице.

Лемма 3.4. Для того, чтобы линейный код C с проверочной матрицей H имел кодовое рас-стояние dC > s+ 1 необходимо и достаточно, чтобы любые s столбцов матрицы H были линейнонезависимы.

Доказательство. Пусть s столбцов матрицы H линейно зависимы. Тогда найдется вектор c такой,что Hct = 0. Это означает, что c ∈ C и w(c) 6 s. Это означает, что dC 6 s.

Обратно. Если любые s столбцов матрицы H линейно независимы, то не существует вектораc ∈ C, c 6= 0 такого, что w(c) 6 s такого, что dC 6 s.

VII. Пусть C есть (n, k) код и Fnq /C - фактор-пространство. Пространство Fn

q распадается на

классы смежности. В каждом классе смежности выберем представителя a(i) с минимальным весом,a(0) = 0. Тогда

Fnq =

(a(0) + C

)⋃· · ·

⋃(a(q

n−k−1) + C).

Пусть y – принятое сообщение, y ∈ a(i) + C и e = y − c – вектор ошибок. Значит, e ∈ a(i) + C.При декодировании по минимуму расстояния Хэмминга вектор ошибок должен иметь минимальныйвес, то есть e = a(i). Элемент минимального веса в смежном классе называется лидером класса.Таким образом, если y ∈ a(i) + C, то получатель считает вектором ошибок лидера смежного классаи декодирует вектор y в кодовое слово c(i) = y − a(i).

VIII. Пусть H – проверочная матрица линейного (n, k) кода C и пусть y ∈ Fnq . Вектор S(y) =

H · yt длины (n− k) будем называть синдромом вектора y.

Теорема 3.10. Если y, y ∈ Fnq , то

(i) S(y) = 0 if and only if y ∈ C(ii) S(y) = S(z) if and only if y − z ∈ C

Таким образом, процедура декодирования сводится к построению таблицы лидеров и вычис-лению соответствующих синдромов.

IX. Границы линейных кодов.

Теорема 3.11. (Синглтон) Пусть C – (n, k) код над Fq. Тогда

dC 6 n− k + 1 .

Доказательство. Теорема является следствием леммы о проверочной матрицы.

Следствие. dC = n− k+1 тогда и только тогда, когда любые (n− k) столбцов провероянойматрицы линейно независимы.

Page 42: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

41

Теорема 3.12. (Граница Хэмминга) Пусть C – (n, k) код над Fq, исправляющий t ошибок. Тогда

t∑

r=0

Crn(q − 1)r 6 qn−k.

Доказательство. Имеется ровно Cmn (q− 1)m векторов над Fq длины n и веса n в шаре Bt(O) = {x ∈

Fnq : w(x) 6 t. Шары радиуса t с центрами в кодовых словах не пересекаются и каждый содержит

t∑

r=0

Crn(q − 1)r

векторов из Fnq . Общее количество векторов в этих шарах не превосходит числа векторов в Fn

q ,поэтому верно неравенство

qkt∑

r=0

Crn(q − 1)r 6 qn .

Отсюда следует утверждение теоремы.

Определение 21. Код называется совершенным или плотно упакованным, если

t∑

r=0

Crn(q − 1)r = qn−k,

то есть имеет место плотная упаковка Fn2 шарами радиуса [(dC − 1)/2].

Теорема 3.13. (Гилберт− Варшамов) Если

qn−k >d−2∑

i=0

Cin−1(q − 1)i ,

то над Fq можно построить линейный (n, k) код с минимальным расстоянием не меньшим d.

Доказательство. Построим проверочную (n − k) × n матрицу H такую, что любые d − 1 столбцовлинейно независимы. Будем считать, что построено m столбцов таких, что любые d − 1 столбцовлинейно независимы,m 6 n−1. Добавить можно столбец, который не является линейной комбинациейне более d− 2 столбцов из m построенных. Подсчитаем количество таких линейных комбинаций.

Количество линейных комбинаций из i столбцов с ненулевыми коэффициентами будет равно

Cim(q − 1)i < Ci

n−1(q − 1)i .

Поэтому количество столбцов, которые не могут быть добавленными, не превышает

d−2∑

i=0

Cin−1(q − 1)i < qn−k

(qn−k - общее число столбцов длины n− k).Значит найдется столбец, который не является линейной комбинацией не более чем d− 2 из

уже выбранных столбцов. Его можно взять в качестве (m+ 1) столбца.

Теорема 3.14. (Плоткин) Для линейного (n, k) кода C с кодовым расстоянием dC выполняетсянеравенство

dC 6nqk−1(q − 1)

qk − 1.

Page 43: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

42

Доказательство. Запишем все кодовые слова построчно в таблице. Через w обозначим средний весвсех кодовых слов в C\0. Ясно, что dC 6 w. Общее число кодовых слов равно |C| = qk и qk − 1– количество ненулевых кодовых слов. Через C′ обозначим множество кодовых слов с нулевой i-ойкомпонентой. Тогда C′ подпространство в Fn

q и |C′| равняется qk−1. Поэтому количество кодовых

слов с ненулевой i-ой компонентой равно |C| − |C′| = qk−1(q − 1), значит, вклад i-ой компоненты всуммарный вес кодовых слов равен qk−1(q − 1). Таким образом суммарный вес кодовых слов равенnqk−1(q − 1), а средний вес w равен

w =nqk−1(q − 1)

qk − 1.

Поэтому

dC 6 w =nqk−1(q − 1)

qk − 1.

Теорема доказана.

X. Код Хэмминга и его свойства.I. Определим код над полем F2 посредством проверочной матрицы, столбцами которой чвля-

ются все ненулевые векторы длины m. Очевидно, что любые два столбца этой матрицы линейнонезависимы и найдутся три линейно зависимх столбца, следовательно, по лемме о проверочной мат-рице кодовое расстояние равно 3 и значит код исправляет одну ошибку. Этот код называется кодомХэмминга. Длина кодовых слов кода Хэмминга равна n = 2m−1, длина информационных слов навнаk = n−m = 2m −m− 1.

Согласно теореме Хэмминга код Хэмминга является совершенным кодом, исправляющим однуошибку.

Код Хэмминга допускает простое декодирование. Представим проверочную матрицу кода Хэм-минга столбцы которой записаны в лексикографическом порядке

H =

0 0 0 1 1 1 10 1 1 0 0 1 11 0 1 0 1 0 1

= [B(1), B(2), . . . , B(n)] ,

здесь B(i) – двоичное представление числа i. Пусть в канале при передаче вектора x произошла однаошибка в i-й координате и получен вуктор y = x+ei. Здесь ei – двоичный вектор длины n с единицейтолько в i-ой компонентею Найдем синдром вектора y:

S(y) = Hyt = Hxt +Heti = Heti = B(i) .

Таким образом, вектором ошибки является i-ой столбец проверочной матрицы в лексикографическомвиде.

4.2 Циклические коды

Линейный код C ∈ Fnq называется циклическим кодом, если из условия c = (c0, c1, . . . , cn−1) ∈ C

следует c′ = (c1, . . . , cn−1, c0) ∈ C.Примером является (7, 4) код Хэмминга с проверочной матрицей

0 1 0 0 1 1 11 0 0 1 1 1 00 0 1 1 1 0 1

Обозначим через Fq[x] кольцо всех многочленов от переменной x с коэффициентами из поля Fq.Оно ассоциативно, коммутативно и содержит единицу. В кольце Fq[x] рассмотрим фрктор множествоFq[x]/(x

n − 1), состоящее из классов вычетов кольца Fq[x] по модулю многочлена xn − 1. МножествоFq[x]/(x

n − 1) замкнуто относительно операций сложения (+) и умножения • и, значит, является

Page 44: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

43

кольцом, но не является полем. Кольцо Fq[x]/(xn−1) изоморфно n-мерному векторному пространству

над Fq:c(x) = c0 + c1x+ C2x

2 + · · ·+ cn−1xn−1 ←→ c = (c0, c1, c2, . . . , cn−1)

Определение 22. Идеалом I кольца Fq[x]/(xn − 1) называется такое его линейное подпро-

странство, что для любых многочленов r(x) ∈ Fq[x]/(xn − 1) и c(x) ∈ I многочлен r(x) • c(x) при-

надлежит I.

Теорема 3.15. Подпространство кольца Fq[x]/(xn−1) является циклическим кодом тогда и только

тогда, когда оно образует идеал.

Существенным моментом в доказательстве теоремы является тот факт, что умножение много-члена на x соответствует циклическому сдвигу вектора в пространстве Fn

q .

x • c(x) = x • (c0 + c1x+ c2x2 + · · ·+ cn−1x

n−1) = cn−1 + c0x+ c1x2 + · · ·+ cn−2x

n−1 .

II. В циклическом коде C выберем многочлен наименьшей степени. Умножим его на подходя-щий элемент поля Fq такой, что коэффициент при старшей степени многочлена равнялся 1. Обозна-чим этот приведенный многочлен через g(x).

Предложение 3.1. Циклический код содержит единственный ненулевой приведенный мно-гочлен наименьшей степени.

Этот ненулевой приведенный многочлен наименьшей степени называется порождающим мно-гочленом кода.

Теорема 3.16. Циклический код состоит из всех многочленов вида

f(x) • g(x),

где g(x) – порождающий многочлен кода степени r, степеть многочлена f(x) меньше (n-r).

Доказательство. Кодовый многочлен поделим на порождающий многочлен с остатком

c(x) = q(x)g(x) = s(x) , deg s(x) < deg g(x) .

Так как s(x) ∈ C(x) и deg s(x) < r, то g(x) = 0.

Теорема 3.17. Циклический код длины n с порождающим многочленом g(x) существует тогда итолько тогда, когда g(x) делит xn − 1.

Доказательство. Поделим многочлен xn − 1 на порождающий многочлен g(x) с остатком

xn − 1 = h(x)g(x) = s(x) .

Поэтому h(x) • g(x) = −s(x), s(x) ∈ C(x) и deg s(x) < r. Отсюда следует, что s(x) = 0.

Таким образом,xn − 1 = h(x)g(x) .

Многочлен h(x) называется проверочным многочленом. Основанием служит следующее рассужде-ниею. Для любого кодового многочлена c(x) ∈ C(x) имеем

h(x)c(x) = h(x)g(x)a(x) = (xn − 1)a(x) .

Поэтому c(x) • h(x) = 0.III. Систематическое и несистематическое кодирование.

Page 45: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

44

Несистематическое кодирование осуществляется следующим образом.

c(x) = i(x)g(x),

где deg i(x) 6 k − 1 = n− r − 1. Многочлен i(x) называется информационным многочленом.При систематическом кодировании для информационного многочлена i(x), deg i(x) 6 k − 1

выберем многочлен t(x) так, чтобы многочлен

xn−ki(x) + t(x) = c(x)

был кодовым многочленом. Так как остаток от деления c(x) на g(x) должен быть равен нулю, имеем

xn−ki(x)%g(x)) + t(x)%g(x) = 0

Отсюда находимt(x) = −xn−ki(x)%g(x) .

Процедуры систематического и несистематического кодирования дают одно и тоже мнжествокодовых слов.

IV. Пусть c(x) ∈ C(x) переданный кодовый многочлен и v(x) ∈ Fq[x]/(xn − 1) принятый мно-

гочлен. Многочлен e(x) = v(x)− c(x) называется многочленом ошибок.Многочлен s(x), равный остатку от деления принятого многочлена на порождающий многочлен

s(x) = v(x)%g(x) = e(x)%g(x), определяется многочленом ошибок. Будем называть его синдромныммногочленом.

Теорема 3.18. Если dC – минимальный вес циклического кода C, то каждому многочлену ошибоквеса dC/2 соответствует единственный синдромный многочлен.

Доказательство. Пусть e1(x) и e2(x) многочлены ошибок веса меньше dC/2 и пусть e1(x)%g(x) =s(x) и e2(x)%g(x) = s(x). Тогда

(e1(x) − e2(x)

)%g(x) = 0. Это означает, что e1(x) − e2(x) является

кодовым многочленом и вес этого многочлена меньше dC . Что невозможно.

V. Порождающая и проверочная матрица циклического кода. Начнем с несистематическогокодера.

Пусть g(x) = g0 + g1(x) + · · · + gn−kxn−k – порождающмй многочлен Ясно, что многочлены

g(x), xg(x), x2g(x), . . . , xk−1g(x) являются кодовыми линейно независимыми многочленами. Поэтому(k × n) матрица

G =

g0 g1 . . . gn−k 0 . . . . . . 00 g0 g1 . . . gn−k 0 . . . 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 0 . . . 0 g0 . . . . . . gn−k

является порождающей матрицей циклического кода C.Пусть v(x) = a(x)g(x), deg a(x) 6 k − 1. Так как xn − 1 = h(x)g(x), то

v(x) · h(x) = a(x) · g(x) · h(x) = a(x)[xn − 1] = a(x)xn − a(x).Это ознчает, что в правой части отсутствуют слагаемы с xk, xk+1, xk+2, . . . xn−1, то есть

v0hk + v1hk−1 + . . . + vkh0 = 0v1hk + v2hk−1 + . . . + vk+1h0 = 0

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .vn−k−1hk + vn−khk−1 + . . . + vn−1h0 = 0

В матричной форме соотношения записываются в виде H · vt = 0t

для любого кодового вектора, гдематрица H = H(n−k)×n имеет вид

hk hk−1 . . . h0 0 . . . . . . 00 hk hk−1 . . . h0 0 . . . 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 0 . . . 0 hk . . . . . . h0

Page 46: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

45

Так как строки матрицы H ортогональны кодовым векторам, то матрица H является проверочнойматрицей.

Многочлен xkh(x−1) = hk + hk−1x + . . . h0xk является порождающим многочленом (n, n − k)

кода C⊥ – двойственного коду C.Построим порождающую матрицу для систематического кодера.Пусть i(x) – информационный многочлен, deg i(x) 6 k − 1. Процедура систематического ко-

дирования сводится к нахождению многочлена t(x) такого, что c(x) = xn−k · i(x) + t(x) являетсякодовым многочленом. Таким многочленом является

t(x) = −xn−k • i(x) .

Для i = 1, . . . k представим xn−i в виде

xn−i = qi(x) · g(x) + si(x), si(x) =

n−k−1∑

j=0

sjixj .

Тогдаxn−i − si(x) = qi(x) · g(x), i = 1, . . . k

являются кодовыми линейно независимыми многочленами. Поэтому порождающая матрица систем-ного кодера запишется в виде

G =

−s0,k −s1,k . . . −s(n−k−1),k 1 0 . . . 0−s0,k−1 −s1,k−1 . . . −s(n−k−1),k−1 0 1 . . . 0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .−s0,1 −s1,1 . . . −s(n−k−1),1 0 0 . . . 1

Тогда проверочная матрица систематического кодера примет вид

H =

1 0 . . . 0 s0,k s0,k−1 . . . s0,10 1 . . . 0 s1,k s1,k−1 . . . s1,1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 0 . . . 1 s(n−k−1),k s(n−k−1),k−1 . . . s(n−k−1),1

VI. Циклический код Хемминга. Неприводимый многочлен p(x) степени m называется прими-тивным, если наименьшая степень n, при котором xn−1 делится на p(x) без остатка равна n = 2m−1.

Теорема 3.19. Любой циклический код Хэмминга длины 2m − 1 с m > 3 может быть построенс помощью некоторого примитивного многочлена степени m. И обратно, любому примитивномумногочлену степени m соответствует некоторый код Хэмминга длины 2m − 1.

Рассмотрим поле F8, для построения поля используем примитивный многочлен p(x) = x3+x+1над F2, α(x) = x является примитивным элементом поля. Перечислим элемениты поля

α0 = (001), α1 = (010), α2 = (100), α3 = (011),

α4 = (110), α5 = (111), α6 = (101), α7 = (001).

Если многочлен c(x) является кодовым многочленом, то

c ·Ht = c · [α0, α1, α2, α3, α4, α5, α6] =

6∑

i=0

ciαi = 0 .

То есть c – кодовое слово тогда и только тогда, когда α корень многочлена c(x). Значит, c(x) делитсяна минимальный многочлен элемента α. Поэтому многочлен g(x) = (x−α)(x−α2)(x−α4) = x3+x+1является порождающим элементом (7,4) кода Хэмминга.

Page 47: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

46

Код, двойственный к (2m−1, 2m−1−m) коду Хэмминга Hm является симплектическим кодом.Все кодовые слова двойственного кода имеют одинаковый вес.

Теорема 3.20. Если Sm – код, двойственный (2m − 1, 2m − 1−m) коду Хэмминга в F 2m−12m , то вес

всех кодовых слов равен 2m−1.

Доказательство. По индукции. Пусть m = 2 и

H2 =

(1 0 10 1 1

)

проверочная матрица (3, 1) кода Хемминга. Тогда кодовое пространство S2 состоит из векторов

(000), (101), (011), (110) .

Вес всех ненулевых кодовых векторов равен 2 = 22−1.Пусть для m = k теорема верна, то есть для любого x ∈ Sk, x 6= 0, имеем w(x) = 2k−1. И пусть

m = k + 1. Все кодовые слова являются линейными комбинациями строк матрицы Hk+1. Пусть

x = α1h1 + · · ·+ αk+1hk+1 ∈ Sk+1,

где h1, . . . , hk+1 – строки матрицы Hk+1 и αi ∈ F2. Рассмотрим два случай: αk+1 = 0 и αk+1 = 1.Переставляя столбцы матрицы Hk+1, можем эту матрицу представить в виде

Hk+1 =

(Hk 0

tHk

0 . . . 0 1 1 . . . 1

)

Здесь 0 – нулевой вектор длины k. В первом случае кодовый вектор x будет иметь вид

x = (x1 . . . x2k−1 0 x1 . . . x2k−1).

Тогда w(x) = 2w(x), w(x) = 2k−1 и w(x) = 2k.Во втором случае

x = α1h1 + · · ·+ αkhk + hk+1 = x′ + hk+1 ,

где x′ = (x′1 . . . x′2k−1 0 x

′1 . . . x

′2k−1). Можем считать, что hk+1 =

(0 . . . 0︸ ︷︷ ︸2k−1

1 . . . 1︸ ︷︷ ︸2k

).

Пусть x′ = (x′1 . . . x′2k−1) ∈ Hk.

Если w(x′) 6= 0, то w(x′) = 2k−1 и w(x′) = 2k. Отсюда получаем w(x) = w(x′)+1+2k−1−w(x′)) =2k .

Если же w(x′) = 0, то w(x′) = 0. Поэтому w(x) = w(hk+1) = 2k .VII. Двоичный код Голея. Можно заметить, что

(C0

23 + C123 + C2

23 + C323

)212 = 223.

Это равенство представляет собой необходимое условие существования совершенного двоично-го кода, исправляющего три ошибки.

Такой код действительно существует и назван был кодом Голея. В основе конструкции лежитравенство

x23 − 1 = (x − 1)g1(x)g2(x)

гдеg1(x) = 1 + x2 + x4 + x5 + x6 ++x10 + x11

иg2(x) = 1 + x+ x5 + x6 + x7 ++x9 + x11

Page 48: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

47

В качестве порождающего многочлена можно использовать как g1(x), так и g2(x). Шары с центрамив кодовых словах упаковывают пространство F 23

2 . Поэтому кодовое расстояние не может быть больше7. И можно доказать, что оно не меньше 7. Поэтому заключаем, что кодовое расстояние кода Голеяравно 7.

Помимо двоичного кода Голея существует совершенный троичный (11, 6) код с кодовым рас-стоянием, равным 5. Других линейных совершенных кодов, исправляющих более одной ошибки, несуществует.

VIII. Декодирование по Меггитта. Алгоритм декодирования опирается на следующее утвер-ждение.

Предложение 3.2. Пусть s(x) является синдромом принятого из канала слова r(x) неко-торого циклического (n, k) кода. Обозначим через s1(x) остаток от деления многочлена x · s(x) напорождающий многочлен g(x) Тогда s1(x) является синдромом r1(x), то есть остатком от деленияциклического сдвига на многочлен g(x).

Доказательство. Пусть

r(x) = r0 + r1x+ · · ·+ rN−1xn−1, x · r(x) = r0x+ r1x

2 + · · ·+ rN−1xn и r(1)(x) = x • r(x) .

Тогдаr(1)(x) = rn−1 + r0x+ · · ·+ rn−2x

n−1 = rn−1[xn − 1] + x · r(x) .

Положимr(1)(x) = a(x)g(x) + s(x), r(x) = b(x)g(x) + s(x) и xn − 1 = g(x) · h(x) .

Тогда

r(1)(x) = a(x)g(x) + s(x) =rn−1 + r0x+ · · ·+ rn−2xn−1 = rn−1[x

n − 1] + x · r(x) =rn−1h(x)g(x) + x [b(x)g(x) + s(x)]

Отсюда следует, чтоx · s(x) =

[a(x) + rn−1h(x) + x b(x)

]· g(x) + s(x) .

Предложение доказано.

В результате,1. Между множеством всех исправляемых ошибок и множеством соответствующих синдромов

существует взаимно однозначное соответствие.2. Если s(x) – синдром, соответствующий многочлену ошибок e(x), то xs(x) mod g(x) – син-

дром, соответствующий xe(x) mod (xn − 1).3. Пусть s(x) – синдром принятого слова y(x) некоторого циклического (n, k) кода. Пусть

s1(x) = xs(x)%g(x). Тогда s1(x) является синдромом циклического сдвига принятого слова, то естьxy(x)%g(x).

Из вышесказанного следует, что множество всех ошибок можно разбить на классы эквива-лентности таким образом, чтобы каждый класс состоял из циклических сдвигов одной комбинацииошибок и сохранять в памяти только синдромы одного из представителей каждого класса эквива-лентности. Для определения принадлежности ошибок данному классу нужно выполнить операциюxs(x)%g(x), не более n раз, и сравнить результат с содержимым памяти. При обнаружении такогосоответствия ошибки сдвинутого многочлена y(x) исправляются и обратным сдвигом кодовое слововосстанавливается.

Page 49: А.А. Соловьевmath.csu.ru/new_files/students/lectures/teor_inform/...Количество информации, содержащейся в дискретном сообщении

48

и

Используемая литература

1. Колесник В.Д., Полтырев Г.Ш. Курс теории информации. М.: Наука, 1982.

2. Самсонов Б.Б., Плохов Е.М., Филоненков А.И., Кречет Т.В. Теория информации и кодирование.Ростов на Дону: Феникс, 2002.

3. Котоусов А.С. Теория информации. М.: Радио и связь, 2003.

4. Вернер М. Основы кодирования. М.: Техносфера. 2004.

5. Соловьева Ф.И. Введение в теорию кодирования. Учебное пособие. Новосибирск. 2011.

6. Блейхут Р. Теория и практика кодов, контролирующих ошибки. М.: Мир. 1986.