362 Microsoft Word.docx) · 159 статистика , которая не зависит от...

9
158 УДК 519.23 А.М. Бондаренко КОЛИЧЕСТВЕННАЯ МЕРА ИНФОРМАЦИИ В СТАТИСТИЧЕСКОЙ ОБРАБОТКЕ ОПЫТНЫХ ДАННЫХ Рассматривается возможность применения количественной меры информации в виде критерия неопределенности (энтропии) как статистики, позволяющей оценить степень согласия ряда опытных данных с теоретическими законами распределения. Обосновывается и предлагается новая методика применения энтропии к статистической обработке выборочных данных. Энтропия, критерий согласия, статистическая обработка, выборка, распределение вероятностей, интервалы группирования A.M. Bondarenko QUANTITATIVE INFORMATION MEASURE IN STATISTICAL ANALYSIS OF EXPERIMENTAL DATA A possibility of using the quantitative information measure in terms of indefiniteness criterion (entropy) as statistics that makes it possible to assess the goodness of fit of some experimental data to the theoretical statistical law has been studied. A new technique of using entropy in the sampling data statistical analysis has been proposed and substantiated. Еntropy, goodness of fit, statistical analysis, sampling, probability distribution, group interval Статистическая проверка исходной информации в отношении гипотез согласия, однородности и случайности выполняется в ходе анализа статистических критериев (так называемых «статистик»), вычисляемых для выборочных совокупностей. Наиболее применяемые параметрические и непараметрические статистики имеют определенные недостатки, часто не позволяющие однозначно оценить степень соответствия эмпирического материала теоретической кривой распределения случайных величин. Например, при использовании критерия Пирсона χ² вычисляются выборочные параметры (среднее, дисперсия и др.), применяемые к предполагаемому теоретическому закону распределения. то приводит в ряде случаев к принятию нуль-гипотезы тогда, когда верна альтернативная гипотеза. Под нуль-гипотезой понимают гипотезу об отсутствии различий между выборочной и генеральной совокупностями. Другие критерии (такие как критерий согласия Колмогорова) используют далеко не всю информацию, заключенную в рядах данных, поскольку учитывается только максимальное расхождение между эмпирической и теоретической функциями распределений. В любом случае принятие гипотезы носит вероятностный характер, зависящий от принимаемого уровня значимости (вероятности неправомерности нуль-гипотезы). Кроме того, в том случае, если состояние случайных объектов или явлений различаются качественно, а не количественно, использование статистических характеристик типа дисперсии невозможно. Должна использоваться такая

Transcript of 362 Microsoft Word.docx) · 159 статистика , которая не зависит от...

Page 1: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

158

УДК 519.23

А.М. Бондаренко

КОЛИЧЕСТВЕННАЯ МЕРА ИНФОРМАЦИИ В СТАТИСТИЧЕСКОЙ ОБРАБОТКЕ ОПЫТНЫХ ДАННЫХ

Рассматривается возможность применения количественной меры

информации в виде критерия неопределенности (энтропии) как статистики, позволяющей оценить степень согласия ряда опытных данных с теоретическими законами распределения. Обосновывается и предлагается новая методика применения энтропии к статистической обработке выборочных данных.

Энтропия, критерий согласия, статистическая обработка, выборка,

распределение вероятностей, интервалы группирования

A.M. Bondarenko

QUANTITATIVE INFORMATION MEASURE IN STATISTICAL ANALYSIS OF EXPERIMENTAL DATA

A possibility of using the quantitative information measure in terms of

indefiniteness criterion (entropy) as statistics that makes it possible to assess the goodness of fit of some experimental data to the theoretical statistical law has been studied. A new technique of using entropy in the sampling data statistical analysis has been proposed and substantiated.

Еntropy, goodness of fit, statistical analysis, sampling, probability

distribution, group interval

Статистическая проверка исходной информации в отношении гипотез согласия, однородности и случайности выполняется в ходе анализа статистических критериев (так называемых «статистик»), вычисляемых для выборочных совокупностей. Наиболее применяемые параметрические и непараметрические статистики имеют определенные недостатки, часто не позволяющие однозначно оценить степень соответствия эмпирического материала теоретической кривой распределения случайных величин. Например, при использовании критерия Пирсона χ² вычисляются выборочные параметры (среднее, дисперсия и др.), применяемые к предполагаемому теоретическому закону распределения. то приводит в ряде случаев к принятию нуль-гипотезы тогда, когда верна альтернативная гипотеза. Под нуль-гипотезой понимают гипотезу об отсутствии различий между выборочной и генеральной совокупностями. Другие критерии (такие как критерий согласия Колмогорова) используют далеко не всю информацию, заключенную в рядах данных, поскольку учитывается только максимальное расхождение между эмпирической и теоретической функциями распределений. В любом случае принятие гипотезы носит вероятностный характер, зависящий от принимаемого уровня значимости (вероятности неправомерности нуль-гипотезы). Кроме того, в том случае, если состояние случайных объектов или явлений различаются качественно, а не количественно, использование статистических характеристик типа дисперсии невозможно. Должна использоваться такая

Page 2: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

159

статистика, которая не зависит от размерности случайных величин. Вполне приемлемым может оказаться применение некой характеристики, связанной с расчетом вероятностей.

В данной работе исследуется возможность приложения к статистической оценке гипотез величины энтропии – критерия Шеннона как количественной меры неопределенности опыта, нашедшей широкое применение в теории информации [1]. Понятие энтропии как меры неопределенности связано с распределением вероятности случайного события (объекта, явления, величины):

∑∑=

=

=

=−=== ni

i iii

ni

i in ppppppppHxH11321 ln)/1ln(),...,,()( , (1)

где ip – вероятности случайных событий; n – количество случайных событий. При этом

11

=∑=

=

ni

i ip . За основание логарифма (2, 10 или число Непера e) принимается такое число,

которое оказывается удобным для анализа. Это число не оказывает качественного влияния на величину энтропии, а лишь определяет ее размерность (биты, диты, ниты). При математическом анализе целесообразно вести расчет в нитах, то есть использовать натуральные логарифмы. Применительно к исследуемым рядам случайных величин показатель неопределенности (энтропия) дает представление о том, насколько уверенно (определенно) появилось данное событие – весь наблюденный ряд как опыт. Максимальная неопределенность события, отвечающая максимальному значению энтропии дискретных случайных величин, имеет место при равномерном распределении вероятностей, то есть при

np i /1= . В этом случае она равна согласно (1)

nnn

nH ln1

ln1

max =−= . (2)

Очевидно, что равномерный закон распределения является предельным в отношении степени неопределенности случайных событий, поскольку случайные величины в этом случае появляются с равной вероятностью в определенном диапазоне их значений. Неопределенность максимальна тогда, когда появление исхода случайного события в интервале равновероятно, а значит абсолютно независимо от остальных исходов.

Для бесконечного множества случайных непрерывных величин Х энтропия может быть вычислена по формуле

∫+∞

∞−−= dxxpxpxH )(ln)()( , (3)

где )(xp – плотность распределения вероятностей величины случайной х и ∫+∞

∞−= 1)( dxxp .

Применяя формулу (3), получим некоторые теоретические значения вероятностных энтропий непрерывных случайных величин, рассматривая равномерный, нормальный и экспоненциальный законы распределения вероятностей.

Для равномерного (равновероятного) закона распределения случайных величин в диапазоне значений от minx до maxx энтропия равна

)ln()ln(1

)( minminmaxminmax

max

min

xxdxxxxx

xH mx

x

x−=−

−=∫ (4)

Для выборки случайных величин, распределенных по любому вероятностному закону, энтропия априори может оцениваться по этой формуле как максимально возможная, дающая первоначальное представление о степени неопределенности события. При этом следует формировать ранжированный (вариационный) ряд, правильно разделенный на интервалы группирования, и использовать формулу (2), где n – количество интервалов выборки. Для нормального закона распределения с плотностью вероятности

)2/()( 22

)2/(1)( σπσ xmxexp −−= (5) энтропия распределения

Page 3: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

160

σπσπσσσπσ

σπσσ

πσσπσ

ln419,1)2ln(2/1)2ln()2/()2ln(

)()()2/(11*)2ln()2/()()(

)()2ln())2/()()2)(ln(()(

22

2222

22

+==+=+=

=−+=−+

+=−+=

∫∫

∫∫∞+

∞−

∞+

∞−

+∞

∞−

+∞

∞−

e

dxmxxpdxmxxp

dxxpdxmxxpxH

xx

x

(6)

Получим теоретическую величину энтропии непрерывной случайной величины, распределенной по экспоненциальному закону распределения с плотностью вероятностираспределения:

bxeb

xp /1)( −= , (7)

где параметр масштаба b равен математическому ожиданию и среднему квадратическому отклонению случайной величины ( σ== xmb ), а область определения аргумента xот 0 до +

∞ . В этом случае энтропия равна

bbb

bbdxxe

bdxe

bbdxe

b

x

b

dxbbxeb

dxxpxpxH

bxbxbx

bx

ln1ln*1

1*ln11

ln1

)ln/(1

)(ln)()(

2

20

/

2

/

0

/

0

/

00

+=+=+=+=

=−−−=−=

∫∫∫

∫∫∞ −−∞−∞

−∞∞

(8)

Все формулы энтропии )(xH , полученные для разных распределений вероятности, включают параметры, явно отражающие статистическую структуру вероятностного распределения в виде дисперсии. Дисперсия является одним из основных статистических параметров, и функциональная связь энтропии с этой характеристикой говорит о правомерности использования величины энтропии в статистическом анализе.

Выполнено статистическое моделирование методом Монте-Карло с генерированием около 2000 выборок случайных величин с разными законами распределения вероятностей. Исследование выполнено для равномерного, нормального, экспоненциального и частично пуассоновского распределений. Генератором случайных чисел формировались ряды случайных величин разного объема данных (N=10, 20, 30, 40, 50, 60, 70, 80, 90,100, 200, 300, 400, 500, 700, 800, 900, 1000, 2000, 3000), для которых вычислялись эмпирические значения энтропий по формуле (1) с определением вероятностей событий как относительных частот

Nnp ii /= ( in – частота попадания в интервал). Программа расчета энтропий составлена на

языке программированияVBA для среды Excel. Случайные числа равномерного закона распределения генерировались на интервале

[0,1]. Нормальное распределение формировалось при значениях параметров 0=xm и σ =1.

Экспоненциальное распределение [2] вычислялось по формуле RbE ln−= , где b – среднее значение случайной величины (параметр масштаба, принятый равным 1), а R – равномерная случайная величина на интервале [0,1]. Числа, распределенные по Пуассону, генерировались для параметра =λ 0,5; 1; 5; 10.

При обработке ряда опытных данных как выборки из генеральной совокупности, обычно используют метод сгруппированных данных, то есть предварительно выполняется ранжирование эмпирической выборки и группирование данных по интервалам. Весь диапазон значений делится на m равных интервалов, определяется ширина интервала

mxxk /)( minmax −= , вычисляются относительные частоты, строятся гистограммы и

эмпирические функции распределения вероятностей. В связи с этим каждый раз делается выбор количества интервалов группирования, что является важным этапом статистической обработки. Если количество этих интервалов мало, то график не будет информативен, поскольку в этом случае нельзя составить представления о вероятностной структуре ряда. С другой стороны, большое количество интервалов может приводить к наличию «пустых», то есть не заполненных данными, интервалов, что дает недопустимое искажение гистограмм распределения. Предполагаем, что существует оптимальное число интервалов m, но

Page 4: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

161

теоретического обоснования его определения нет. Как правило, применяют эмпирическую формулу Стерджеса [3], по которой рекомендуемое число интервалов m ставится в зависимость от объема выборки: Nm lg322,31+= . Однако для ряда значений N ее применение часто дает завышенное количество интервалов, что вытекает и из результатов выполненных численных экспериментов.

Выбор числа m свяжем с некоторыми понятиями теории информации, рассматривая процесс группирования данных и интервального осреднения как способ снятия неопределенности. В этом случае следует ожидать изменения величины энтропии вариационного ряда опытных данных как в зависимости от объема выборочных данных N , так и от количества интервалов группирования m . На рис. 1 представлены диаграммы энтропий (энтропийные кривые) для нормального распределения вероятностей генерированных выборок различного объема. Очевидна более выраженная зависимость энтропии H от количества интервалов группирования m , нежели от длины ряда N . С увеличением m возрастает неопределенность данной выборки как события, поскольку увеличивается степень разнообразия сгруппированного материала. Показатель неопределенности (энтропия) вполне может служить и для оценки степени разнообразия случайных величин. В частности, он нашел применение при проведении географических исследований с целью районирования территории по ряду географических признаков, распределенных по площади неравномерно.

Для выборки нормированных случайных величин, полученных с помощью датчика случайных чисел на ЭВМ при σ =1, теоретическое значение энтропии нормального распределения непрерывных величин из формулы (6) H =1,42 (с округлением до сотых). Используем это значение в виде прямой линии, параллельной оси абсцисс, для оценки оптимального значения количества группировок m , назначаемого при статистической обработке опытных данных.

Полагаем, что пересечение прямой линии, соответствующей теоретическому значению H =1,42, с энтропийной кривой выборки объемом N , должно соответствовать оптимальной величине m для данного N . Для нормального распределения в соответствии с рис.1 количество группировок может меняться от 4 до 7.

На рис. 2 показаны аналогичные диаграммы энтропий для выборок экспоненциального распределения. В соответствии с полученной формулой (7) при принятом параметре b =1 теоретическая величина энтропии H =1,0. Для этого распределения вероятностей величина m , определенная по соответствующим пересечениям прямой линии и энтропийных кривых, изменяется от 4-5 до 9.

Представленные диаграммы дополнены фактическим материалом в виде таблиц вычисленных значений энтропий H для генерированных выборок объемом N .

Расчеты, выполненные для равномерного распределения, показали, что в этом случае величина энтропии практически не зависит от объема выборки, начиная с N =100 (рис. 3). Теоретическая предельная кривая вычислена в соответствии с формулой (2), в которой величина n равна числу группировок m . Можно утверждать, что для выборки, близкой к равномерному распределению, выбор количества группировок не оказывает существенного влияния на форму кривой распределения, построенной по эмпирическим данным.

Page 5: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

162

Рис. 1. Табличные диаграммы энтропий нормально распределенных данных в зависимости от объема выборки N и количества группировок m (от 3 до 15)

Рис. 2. Табличные диаграммы энтропий экспоненциально распределенных данных в зависимости от объема выборки N и количества группировок m (от 3 до 13)

Таблица 1

3 4 5 6 7 8 9 10 11 12 13 14 15

N=20 1,0151,2891,4771,626

N=30 1,0051,2731,4741,645

N=50 0,9721,2361,4331,6051,7531,883

N=70 0,9321,1991,4081,5671,7141,847

N=100 0,9431,1961,4171,5741,7271,8501,9562,0632,1492,2272,3132,3782,432

N=300 0,8641,1121,3001,4681,6141,7401,8581,9522,0462,1282,2082,2792,343

N=500 0,8211,0541,2501,4141,5581,6801,7951,8941,9882,0732,1502,2232,288

N=700 0,7971,0421,2321,3901,5381,6621,7721,8771,9712,0512,1302,2042,270

N=1000 0,7751,0251,2101,3651,5061,6331,7471,8491,9402,0232,1012,1702,240

N=2000 0,7480,9911,1751,339 1,48 1,6071,7151,8171,9111,9952,0712,1442,212

N=3000 0,7240,9741,1521,3161,4531,5821,6921,7891,8841,9682,0452,1172,184

N=20; 3; 1,015

N=20; 4; 1,289N=20; 5; 1,477

N=20; 6; 1,626

N=30; 3; 1,005N=30; 4; 1,273

N=30; 5; 1,474N=30; 6; 1,645

N=50; 3; 0,972N=50; 4; 1,236

N=50; 5; 1,433N=50; 6; 1,605

N=50; 7; 1,753N=50; 8; 1,883

N=70; 3; 0,932N=70; 4; 1,199

N=70; 5; 1,408N=70; 6; 1,567

N=70; 7; 1,714N=70; 8; 1,847

N=100; 3; 0,943N=100; 4; 1,196

N=100; 5; 1,417N=100; 6; 1,574

N=100; 7; 1,727N=100; 8; 1,850N=100; 9; 1,956

N=100; 10;

2,063

N=100; 11;

2,149

N=100; 12;

2,227

N=100; 13;

2,313

N=100; 14;

2,378

N=100; 15;

2,432

N=300; 3; 0,864N=300; 4; 1,112

N=300; 5; 1,300N=300; 6; 1,468

N=300; 7; 1,614N=300; 8; 1,740

N=300; 9; 1,858N=300; 10;

1,952

N=300; 11;

2,046

N=300; 12;

2,128

N=300; 13;

2,208

N=300; 14;

2,279

N=300; 15;

2,343

N=500; 3; 0,821N=500; 4; 1,054

N=500; 5; 1,250N=500; 6; 1,414

N=500; 7; 1,558N=500; 8; 1,680

N=500; 9; 1,795N=500; 10;

1,894

N=500; 11;

1,988

N=500; 12;

2,073

N=500; 13;

2,150

N=500; 14;

2,223

N=500; 15;

2,288

N=700; 3; 0,797N=700; 4; 1,042

N=700; 5; 1,232N=700; 6; 1,390

N=700; 7; 1,538N=700; 8; 1,662

N=700; 9; 1,772N=700; 10;

1,877

N=700; 11;

1,971

N=700; 12;

2,051

N=700; 13;

2,130

N=700; 14;

2,204

N=700; 15;

2,270

N=1000; 3;

0,775

N=1000; 4;

1,025

N=1000; 5;

1,210

N=1000; 6;

1,365

N=1000; 7;

1,506

N=1000; 8;

1,633

N=1000; 9;

1,747

N=1000; 10;

1,849

N=1000; 11;

1,940

N=1000; 12;

2,023

N=1000; 13;

2,101

N=1000; 14;

2,170

N=1000; 15;

2,240

N=2000; 3;

0,747954309

N=2000; 4;

0,990600228

N=2000; 5;

1,174681902

N=2000; 6;

1,338628292

N=2000; 7;

1,480456352

N=2000; 8;

1,606549025

N=2000; 9;

1,715230942

N=2000; 10;

1,816540956

N=2000; 11;

1,91084516

N=2000; 12;

1,994572401

N=2000; 13;

2,070635319

N=2000; 14;

2,144069433

N=2000; 15;

2,211944103

N=3000; 3;

0,724479377

N=3000; 4;

0,973594487

N=3000; 5;

1,151647687

N=3000; 6;

1,316433668

N=3000; 7;

1,45314455

N=3000; 8;

1,58182168

N=3000; 9;

1,691663384

N=3000; 10;

1,78883934

N=3000; 11;

1,884157896

N=3000; 12;

1,968347192

N=3000; 13;

2,045078278

N=3000; 14;

2,116846561

N=3000; 15;

2,184083462

эн

тро

пи

я Н

, н

иты

H=1,42

Page 6: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

163

Рекомендуемое количество группировок

Объем выборки N 10-40 40-100 100-300 300-1000 >1000

m 4 5 6 7 7-9

Обобщая вышеизложенное, можно рекомендовать количество интервалов группиро-вания m в зависимости от объема выборки N (табл. 1). Максимальное количество группировок рекомендуется равным 8-9, что существенно отличается от расчетных значений по формуле Стерджеса. Например, для интервала объемов выборки N =[500-1000] формула дает m = 10-11 , тогда как по нашим рекомендациям количество группировок следует принять равным 7. Полагаем, что количество m для N , близкого к 100, следует принять равным 5 , а не 8 в соответствии с расчетом по формуле Стерджеса. Отметим, что гистограммы распределения случайных величин, полученные с рекомендуемым меньшим количеством группировок, лучше согласуются с гистограммами генерированных случайных величин нормального распределения, нежели гистограммы с завышенными значениями количества группировок.

Рис. 3. Табличные диаграммы энтропий равномерно распределенных данных в зависимости

от объема выборки N и количества группировок m (от 3 до 15)

По данным численных экспериментов построено несколько энтропийных кривых для разных вероятностных распределений. Под энтропийными кривыми в данной работе понимаются графические изображения диаграмм в виде кривых, полученных в зависимости величины энтропии H от количества интервалов группирования m для заданного объема выборки случайных величин N . На рис. 4 приведены кривые энтропии для выборки объемом N =200. Показательно, что энтропийная кривая равномерного распределения вероятностей как предельная для всех распределений случайных величин является огибающей. Кривая энтропии нормально распределенных величин почти параллельна огибающей, и с нею фактически совпадают кривые пуассоновского распределения при больших λ =5 и λ =10 для значений m от 4 до 9. Это совпадение кривых соответствует подобию форм кривых плотности нормального распределения вероятностей и распределения Пуассона для больших значений λ . В то же время при значениях параметра 1≤λ кривые распределения Пуассона отличаются характерной асимметричностью. Соответствующие им энтропийные кривые на рис. 4 значительно удалены от энтропийной кривой нормального распределения. Очевидно,

Page 7: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

164

что форма энтропийной кривой и удаленность от предельной кривой равномерного распределения свидетельствуют о принадлежности данной выборки определенному закону распределения.

Рис.4. Энтропийные кривые для разных вероятностных распределений при объеме выборки N=200

Полученные кривые вполне могут быть использованы в качестве критерия согласия эмпирического материала теоретическим кривым распределения путем графического сопоставления эмпирических энтропийных кривых и энтропийных кривых, полученных в данной работе для различных распределений случайных величин. С учетом рекомендаций по назначению количества группировок m (табл. 1) от 4 до 7 и выполненного статистического исследования величины энтропии по стандартной программе «Описательная статистика» составлена табл. 2, которая рекомендуется для практического применения. В ней помещены среднестатистические из 200 выборочных энтропий ( H ), полученных для разных объемов выборки N , а также соответствующие им средние квадратические отклонения σ и коэффициенты вариации Vс . Эта таблица статистической оценки энтропии рекомендуется к

использованию в том случае, если анализируется одно численное значение энтропии H , вычисленное для ряда опытных данных.

Приведем пример оценки степени согласия эмпирических данных нормальному распределению с использованием рекомендуемой табл. 2.

Для ряда горизонтальных углов, измеренных 108 раз, взятого из книги Н.В. Смирнова [4], вычислено эмпирическое значение энтропии H =1,401 при количестве группировок m =5. Пользуясь табл. 2, учитывая близость объема выборки углов к N =100, находим для N =100 и m =5 основные статистические параметры энтропии: H =1,395,σ =0,098. Распределение самой величины энтропии подчиняется нормальному распределению, поэтому можно утверждать, что с доверительной вероятностью P =0,997 значение полученной энтропии лежит в пределах 1,395 ± 3σ =1,395 ± 0,294. Энтропия ряда углов H =1,401 оказалась близкой к среднестатистическому значению 1,395 и практически совпадает с ним при округлении до сотых. Эта эмпирическая величина входит не только в интервал «± 3σ », но и в более жесткий интервал «± σ », что однозначно подтверждает гипотезу о нормальном распределении вероятностей измеренных углов.

Таблица 2

Page 8: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

165

Статистическая оценка энтропии нормального распределения

m 4 5 6 7 N Н σ Сv Н σ Сv Н σ Сv Н σ Сv 10 1,242 0,111 0,089 20 1,258 0,088 0,070 30 1,453 0,099 0,068 40 1,447 0,083 0,058 50 1,436 0,089 0,062 60 1,421 0,086 0,061 70 1,422 0,078 0,055 80 1,418 0,081 0,057 90 1,394 0,090 0,065

100 1,395 0,098 0,071 200 1,509 0,092 0,061 300 1,470 0,096 0,066 400 1,444 0,104 0,072 500 1,419 0,118 0,083 600 1,551 0,097 0,063 700 1,531 0,131 0,086 800 1,534 0,108 0,071 900 1,516 0,112 0,074 1000 1,497 0,128 0,085

Данный вывод хорошо иллюстрирует рис. 5, на котором приведены эмпирическая энтропийная кривая измеренных углов, энтропийная кривая нормального и предельная энтропийная кривая равномерного распределений. Наблюдается практически полное совпадение эмпирической и нормальной кривых энтропий.

Рис. 5. Табличные диаграммы энтропий эмпирического ряда объемом N=108, энтропий нормального и равномерного распределений

Применение критерия неопределенности случайных событий в виде энтропии Шеннона дает хорошие результаты при определении степени согласия распределениям нормальному,

4 5 6 7 8 9 10 11 12 13

Н опытного ряда углов 1,228 1,401 1,566 1,700 1,848 1,955 2,052 2,140 2,251 2,289

Н норм. распределения 1,198 1,379 1,580 1,736 1,843 1,943 2,040 2,133 2,221 2,304

Н равном.распределения 1,380 1,586 1,778 1,922 2,054 2,168 2,268 2,336 2,452 2,516

Н опытного ряда

углов ; 4; 1,228

Н опытного ряда

углов ; 5; 1,401

Н опытного ряда

углов ; 6; 1,566

Н опытного ряда

углов ; 7; 1,700

Н опытного ряда

углов ; 8; 1,848

Н опытного ряда

углов ; 9; 1,955

Н опытного ряда

углов ; 10; 2,052

Н опытного ряда

углов ; 11; 2,140

Н опытного ряда

углов ; 12; 2,251

Н опытного ряда

углов ; 13; 2,289

Н норм.

распределения; 4;

1,198

Н норм.

распределения; 5;

1,379

Н норм.

распределения; 6;

1,580

Н норм.

распределения; 7;

1,736

Н норм.

распределения; 8;

1,843

Н норм.

распределения; 9;

1,943

Н норм.

распределения; 10;

2,040

Н норм.

распределения; 11;

2,133

Н норм.

распределения; 12;

2,221

Н норм.

распределения; 13;

2,304

Н

равном.распределе

ния; 4; 1,380

Н

равном.распределе

ния; 5; 1,586

Н

равном.распределе

ния; 6; 1,778

Н

равном.распределе

ния; 7; 1,922

Н

равном.распределе

ния; 8; 2,054

Н

равном.распределе

ния; 9; 2,168

Н

равном.распределе

ния; 10; 2,268

Н

равном.распределе

ния; 11; 2,336

Н

равном.распределе

ния; 12; 2,452

Н

равном.распределе

ния; 13; 2,516

Эн

тро

пи

я Н

, н

иты

Page 9: 362 Microsoft Word.docx) · 159 статистика , которая не зависит от размерности случайных величин . Вполне приемлемым

166

экспоненциальному, равномерному и Пуассона. Есть основания полагать, что этот критерий вполне применим и к другим законам распределения вероятностей. Кроме того, вполне оправданно применение этой статистики и для оценки других статистических гипотез – гипотезы однородности и гипотезы случайности опытных данных.

Выводы

Критерий неопределенности (энтропия) может применяться в качестве «статистики», позволяющей оценить степень согласия (соответствия) ряда опытных данных теоретическим законам распределения. Для графического выявления степени согласия рекомендуются энтропийные кривые, полученные для разных законов распределения вероятностей. Может быть использовано и одно численное значение энтропии опытного ряда данных, если применять рекомендуемые статистические параметры энтропии нормального распределения при выявлении соответствия эмпирических данных нормальному распределению. Предлагается новое обоснование выбора оптимального количества интервалов группирования данных при статистической обработке. Количество группировок следует принимать в интервале от 4 до 9. Критерий неопределенности должен быть изучен не только для оценки статистической гипотезы согласия, но также однородности и случайности выборочных опытных данных.

ЛИТЕРАТУРА

1. Яглом А.М., Яглом И.М. Вероятность и информация. М.: Наука,1973. 354 с. 2. Хастингс Н., Пикок Дж. Справочник по статистическим распределениям. М.:

Статистика, 1980. 95 с. 4. Кремер Н.Ш. Теория вероятностей и математическая статистика. М.: ЮНИТИ, 2007.

551 с. 4. Смирнов Н.В., Белугин Д.А. Теория вероятностей и математическая статистика в

приложении к геодезии. М.: Недра, 1969. 381 с. Бондаренко Александр Михайлович – кандидат географических наук, доцент, заведующий кафедрой «Инженерные изыскания и информационные технологии в строительстве» Саратовского государственного технического университета

Bondarenko Aleksandr Mikhailovich – Candidate of geographical sciences (Ph.D. in Geography), associate professor, head of the department of Engineering Survey and Information Technology in Construction, Saratov State Technical University

Статья поступила в редакцию 07.04.2011, принята к опубликованию 20.04.2011