Методы обработки экспериментальных...

80
Методы обработки экспериментальных данных Учебное пособие по циклу лабораторных работ по курсу «Методы обработки экспериментальных данных» Рубан Анатолий Иванович Кузнецов Алексей Владимирович Красноярск 2008 г.

Transcript of Методы обработки экспериментальных...

Page 1: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

Методы обработки экспериментальных данных

Учебное пособие по циклу лабораторных работпо курсу «Методы обработки экспериментальных данных»

Рубан Анатолий ИвановичКузнецов Алексей Владимирович

Красноярск 2008 г.

Page 2: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

2

Учебное пособие содержит описание ряда лабораторных работ.Часть работ магистранты должны выполнить с использованиемсовременных программных пакетов для обработки данных. Это позволит имполучить практические навыки работы в этих пакетах. Другую часть работмагистранты должны выполнить в виде программных стендов (на любомязыке программирования). Это позволит им детально разобраться вустройстве реализуемых методов обработки экспериментальных данных изакрепить полученные на лекциях теоретические сведения.

Предназначено для магистрантов укрупненной группы подготовкинаправления 230100.68 – Информатика и вычислительная техника ипреподавателей дисциплины «Методы обработки экспериментальныхданных»

Page 3: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

3

ВВЕДЕНИЕ

Дисциплина «Методы обработки экспериментальных данных»предполагает в 11 семестре выполнение магистрантами несколькихлабораторных работ, на которые отводится 34 часа (0,94 зачетных единицы).

При выполнении этих работ, у магистрантов формируются иразвиваются следующие компетенции:

а) универсальные:общенаучные (ОНК):

· ОНК 1. Способность применять знания на практике.· ОНК 2. Исследовательские навыки.· ОНК 4. Способность адаптироваться к новым ситуациям.

инструментальные (ИК):· ИК 2. Фундаментальная подготовка по основам

профессиональных знаний.· ИК 3. Навыки работы с компьютером.· ИК 5. Способность к анализу и синтезу.

б) профессиональные:– общепрофессиональные (ОПК):

· ОПК 2. Умение понять поставленную задачу.· ОПК 3. Умение формулировать результат.· ОПК 5. Умение на основе анализа увидеть и корректно

сформулировать результат.· ОПК 6. Умение самостоятельно увидеть следствия

сформулированного результата.· ОПК 7. Умение грамотно пользоваться языком предметной

области.· ОПК 11. Самостоятельное построение алгоритма и его анализ.

– профильно-специализированные (ПСК):· ПСК 1. Владение методом алгоритмического моделирования при

анализе постановок прикладных задач.

Page 4: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

4

· ПСК 2. Владение методами математического и алгоритмическогомоделирования при решении прикладных и инженерных задач.

· ПСК 9. Умение грамотно использовать программные комплексыпри решении практических задач.

· ПСК 13. Владение методами математического иалгоритмического моделирования.

Все методы обработки и анализа данных, рассматриваемые втеоретической части курса не могут быть использованы «сами по себе». Дляих применения на практике их требуется реализовать в виде программы дляЭВМ.

Следует отметить, что на текущий момент уже существует множествоматематических пакетов общего назначения, таких как STATISTICA, Math-CAD, MatLab и др. Может возникнуть закономерный вопрос «Зачем еще разреализовывать тот или иной метод для обработки и анализа данных?». Ответочень прост – чтобы детально разобраться в изучаемом материале, так как всесовременные математические пакеты (в своем подавляющем большинстве)реализованы по принципу «черного ящика», т.е. пользователь что-то подаетна вход и что-то получает на выходе, без малейшего представления о том, чтоже происходит внутри.

Выполнив лабораторные работы, представленные в пособии, студентполучит реальный опыт работы со средними и большими массивами данных,научится визуализировать обрабатываемую информацию и очень подробноразберется с реализуемыми методами обработки данных, так как ихневозможно корректно запрограммировать, не разобравшись в их устройстве.

В данном пособии представлены наиболее часто встречающиеся напрактике современные методы обработки экспериментальных данныхориентированные на использование современных ЭВМ, позволяющих быстрообрабатывать большие объемы данных.

Основная идея, заложенная в данной работе – как можно доступнееподать учебный материал, но в то же время оставить студенту большуюстепень свободы в плане конкретной реализации рассматриваемых методов. Сцелью более легкого усваивания информации в указаниях приведеномножество блок схем и пояснений практического характера,иллюстрирующих работу рассматриваемых методов анализа данных.

Page 5: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

5

1. ОБЩИЕ ТРЕБОВАНИЯ

Перечислим общие требования, предъявляемые к выполняемымработам.

1.1. Требования по оформлению

Отчет о выполненной работе должен содержать следующие части:· Титульный лист. Оформляется в соответствии с текущими

требованиями, принятыми в ВУЗе.· Оформление текста согласно текущим требованиям принятым в

ВУЗе для оформления отчетов лабораторных работ.· Постановка задачи. Содержимое этого раздела должно быть

конкретизировано под выполняемый вариант работы.· Краткие теоретические сведения. Теоретические сведения

должны быть конкретизированы под выполняемый вариантработы.

· Описание программной реализации метода. В этом разделеприводится описание в виде текста или блок схем реализуемыхалгоритмов и методов анализа данных.

· Тестирование реализованного метода. В этом разделе приводятсярезультаты работы реализованного в виде программы методаанализа данных. Результаты могут быть представлены в видетаблиц, графиков или снимков экрана.

· Выводы. В этом разделе должны быть представлены выводы обобнаруженных свойствах и закономерностях реализованногометода анализа данных.

· Список литературы. Приводится список литературы,оформленный в соответствии с текущими требованиями,принятыми в ВУЗе.

Примечание. Исходные тексты программы не надо включать в отчет.Они должны быть предоставлены в электронном виде вместе с исполняемымфайлом программы реализующей выданный вариант работы.

Page 6: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

6

1.2. Требования к реализации

· Используемый язык программирования. Любой на выборстудента. Желательно использовать современные языки иплатформы программирования: C++, Delphi, Java, C# и т.д.

· Интерфейс пользователя. Желательно реализовыватьдружественный визуальный интерфейс пользователя в видедиалоговых окон. Это ускоряет и упрощает процедурутестирования программы при ее приемке преподавателем.Консольный вариант интерфейса программы так же допустим,хотя и не желателен, так как на сегодняшний день современныеинструментальные средства разработки (такие как Borland Delphi,Visual Studio, Eclipse и т.д.) позволяют разрабатывать удобныевизуальные диалоговые окна «в несколько щелчков мышкой».

· При сдаче программы преподавателю во время контрольногозапуска программы она не должна выдавать сообщений обошибках типа «Деление на ноль», «Переполнение» и т.п. Такиепрограммы будут отправляться на доработку.

· Для сдачи программа должна быть предоставлена в видеисполняемого модуля, при необходимости укомплектованнаявсеми нужными внешними библиотеками, так как на компьютерепреподавателя может не быть той инструментальной среды,которую выбрал студент для реализации работы.

· Исходные тексты программы должны быть отформатированы исодержать достаточное для понимания логики программыколичество комментариев. Исходный текст программы обычноиспользуется для проверки «авторства» студента при сдачеработы.

· Исполняемый модуль и носитель (дискета, флэшка, CD диск ит.п.) на котором он предоставляется для проверки преподавателю,должны быть предварительно проверены на вирусы. Этотребование появилось в связи с частыми случаями заражениясдаваемых работ вирусами.

Page 7: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

7

1.3 Пример интерфейса пользователя

На рисунке 1.1 приведен примерный интерфейс пользователя.Рекомендуется при выполнении заданий стремиться делать примерно такойже интерфейс, так как в таком случае удобно и наглядно представлена всявходная и вся выходная информация.

Рисунок 1.1. Примерный вид интерфейса пользователя.

Программа должна выполнять элементарные проверки на корректностьвводимых данных, например, ввод строковых данных вместо числовых и т.п.

1.4 Выдача и прием заданий

Темы лабораторных работ даются в рамках изложенного на лекцияхтеоретического материала. Студент должен реализовать методы обработкиданных, изложенные в рамках лекций в виде программы на любом языкепрограммирования (по выбору студента).

Выдача заданий производится преподавателем во время проведениялабораторных занятий.

Так как в течение семестра невозможно выполнить все представленныев пособии лабораторные работы рекомендуется в качестве основных работиспользовать следующие работы:

Page 8: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

8

· Исследование байесовского правила классификации враспознавании образов при непрерывных информативныхпризнаках (условные плотности известны с точностью допараметров).

· Исследование алгоритмов построения степенных моделей сиспользованием ортогональных планов первого и второгопорядков.

· Исследование непараметрической оценки прямой регрессии· Исследование простейшего алгоритма адаптивной

идентификации параметров статических (линейных и нелинейныхотносительно параметров) моделей объектов.

Состав и полнота реализации работ может варьироваться по желаниюпреподавателя исходя из текущей ситуации в учебном процессе и уровняподготовки студентов.

Требования к выполнению лабораторных работ:1. Строгое соответствие программы и результатов ее работы с

полученным заданием.2. Самостоятельные тестирование и отладка программы.3. Устойчивость работы программы при любых значениях параметров,

задаваемых пользователем через интерфейс программы.4. Предоставление демонстрационного примера и исходного текста

программы для защиты лабораторных работ.5. Предоставление отчета, содержащего описание реализованного

метода анализа данных и результаты тестирования этого метода путемзапуска программы с различными входными параметрами.

Условия сдачи лабораторных работ:Знание теории по сдаваемому методу анализа данных. Умение

объяснить полученные результаты. Способность быстро продемонстрироватьвладение предметной областью.

Page 9: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

9

2. ОБЩАЯ СХЕМА ПОСТРОЕНИЯ РАБОТЫКаждая работа состоит из двух частей. Первая часть это моделирование

(имитация) объекта. Вторая часть – реализация заданного метода.Моделирование объекта приходится проводить по той причине, что нет

возможности предоставить студентам для исследования реальные объекты.Модель объекта обычно задается как некоторая случайная величина или каканалитическая функция, к которой добавлена помеха, имеющая нормальноераспределение с нулевым математическим ожиданием и некоторойдисперсией помехи (уровень помехи обычно вводится во время работыпрограммы).

Отметим, что все современные языки программирования содержатреализацию генератора случайных чисел по равномерному закону, но дляцелей моделирования этого мало – требуется генерировать и другие законы.Рассмотрим, как это можно сделать.

2.1. Общий метод генерации непрерывных распределенийВ общем случае распределение действительных чисел может быть

выражено в терминах функции распределения F(x) , которая точноопределяет вероятность того, что случайная величина X не превыситзначение x :

)()( xXPxF £= .

Эта функция всегда монотонно возрастает от 0 до 1, т.е.

.1)(,0)(;),()( 2121 =+¥=-¥££ FFxxеслиxFxF

Если F(x) непрерывна и строго возрастающая (так что

2121 ),()( xxкогдаxFxF << ), то она принимает все значения между 0 и 1 и

существует обратная функция )(1 yF - , такая, что для 10 << y

)(,)( 1 yFxкогдатогдатолькоитогдаxFy -==

В большинстве случаев, когда F(x) непрерывна и строго возрастающая,можно вычислить случайную величину X с распределением F(x) , полагая

),(1 UFX -=

Page 10: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

10

где U – равномерно распределенная случайная величина. Действительно,вероятность того что xX £ равна вероятности того, что xUF £- )(1 , а именно– вероятности того, что )(xFU £ , т.е. F(x) .

Теперь проблема сводится к решению задачи численного анализа – кнахождению хороших методов вычисления )(1 UF - с требуемой точностью.

Этот метод хорошо применять, когда существует однозначноепреобразование. Для нормального закона (который является одним из самыхраспространенных) это не так.

Рассмотрим два основных способа генерации чисел имеющихнормальное распределение.

2.2. Генерация чисел, по нормальному закону с использованиемцентральной предельной теоремы

Центральная предельная теорема утверждает, что случайная величинаY равная:

kXXXY +++= K21

Имеет нормальное распределение с некоторым математическиможиданием и дисперсией.

Как уже было сказано выше, в нашем распоряжении есть генераторравномерно распределенных случайных чисел, мы можем воспользоваться имдля генерации случайных величин iX .

Тогда для получения случайной величины Y с нужными нампараметрами можно воспользоваться следующей формулой:

y

k

iy mRND

kY +-s= å

=1)5.0)1;0((12 ,

где k – количество слагаемых, при этом чем больше k , тем лучше качествоработы генератора, но тем больше время его работы. Оптимально брать12 ≤k ≤100. ys и ym – желаемые параметры для случайной величины Y .

2.3. Генерация чисел по нормальному закону методом полярныхкоординат

Этот алгоритм вычисляет две независимые нормально распределенныеслучайные величины 1Y и 2Y .

Page 11: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

11

Шаг 1. Генерируем две независимые случайные величины 1U и 2U ,равномерно распределенных между 0 и 1. Присвоить 12 11 -= UV , 12 22 -= UV .

1V и 2V равномерно распределены между -1 и +1.

Шаг 2. Присвоить 22

21 VVS +=

Шаг 3. Если 1³S , возврат на Шаг 1.Шаг 4. Присвоить 1X и 2X следующие значения:

SSVX ln2

11

-= ,

SSVX ln2

22

-=

Получим независимые нормально распределенные величины с нулевымматематическим ожиданием и единичной дисперсией.

Теперь что бы получить величины 1Y и 2Y с желаемыми параметраминеобходимо выполнить простейшее преобразование:

111 mXY +s= и 222 mXY +s=

Для доказательства законности данного метода используемэлементарную аналитическую геометрию и вычисления: если на Шаге 3 1<S ,то точка плоскости с декартовыми координатами ( 1V , 2V ) является случайнойточкой, равномерно распределенной внутри единичного круга. Перейдя кполярным координатам q= cos1 RV , q= sin2 RV , получим

2RS = , q-= cosln21 SX , q-= sinln22 SX .

Используя так же полярные координаты 'cos'1 q= RX и 'sin'2 q= RX ,

получим q=q' и SR ln2' -= . Ясно, что 'q и 'R независимы, поскольку q иR независимы в единичном круге. К тому же 'q равномерно распределеномежду 0 и p2 , и что 2/2reS -³ . Эта вероятность равна 2/2

1 re-- , так как 2RS =равномерно распределено между 0 и 1. Вероятность того, что 'R лежит междуr и drr + , поэтому равна дифференциалу от 2/2

1 re-- , т.е. drre r 2/2- .Аналогично вероятность того, что 11 xX £ и 22 xX £ , равняется

÷÷ø

öççè

æp÷÷

ø

öççè

æp

=qp òòò

¥-

-

¥-

-

£q£qq

- dyedxerdrdex

yx

x

xrxrr

r2

21

2

21

2 2/2/

}sin,cos|),{(

2/

21

21

21 . Это

доказывает, что 1X и 2X независимы и нормально распределены.

Page 12: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

12

3. ЗНАКОМСТВО С ПРОГРАММНЫМ ПАКЕТОМ«STATGRAPHICS 5.0» ДЛЯ ОБРАБОТКИ ДАННЫХ НАПРИМЕРЕ ИССЛЕДОВАНИЯ ПРЕДЕЛЬНЫХ ТЕОРЕМ

Цель работы: используя возможности программного пакета «Statgraph-ics 5.0» статистически пронаблюдать существо основных предельных теорем.Получить основные навыки работы с пакетом: генерация случайных выборок,преобразование данных, вычисление формул, построение основных графиков.

3. 1. Теорема Бернулли

Цель работы: пронаблюдать суть теоремы Бернулли.

Если проводится n независимых испытаний случайного события A,

вероятность которого pAP =)( , то относительная частотаnm появления

события A ( m число появлений A) при большом n приближенно равнавероятности p :

pnm»

Уточнение: будем писать

pnm® при ¥®n ,

если для любого e>0 и для достаточно больших n соотношение

e<- pnm (3.1)

выполняется с вероятностью, стремящейся к 1 с ростом n; запишем это так:

1®þýü

îíì <-R ep

nm при ¥®n .

В этом состоит теорема Бернулли. Заметим, что теорема не утверждает,что соотношение (3.1) достоверно, однако, если n достаточно велико, товероятность его выполнения близка к 1 (например, 0.98 или 0.999), что

Page 13: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

13

практически достоверно. Если собираемся провести эксперимент, состоящийиз этого достаточно большого числа n испытаний, то можем быть уверены,что соотношение (3.1) будет выполнено. Проверим это не абсолютнодостоверное утверждение.

Пример. Бросание симметричной монеты.Вероятность появления герба 5.0=p можно показать (с помощью

центральной предельной теоремы), что, например, если25.1÷øö

çèæ³e

n , то

соотношение (3.1) выполняется с вероятностью 0.997, а если23.1÷øö

çèæ³e

n , то - с

вероятностью 0.99; последняя в данном случае нас вполне устраивает какпрактическая достоверность. Положим 1.0=e ; тогда соотношение

1.05.0 <-nm (3.2)

выполняется с вероятностью 0.99 при 170³n . если 03.0=e , то соотношение

03.05.0 <-nm (3.3)

выполняется с вероятностью 0.99 при 1850³n . Мы уверены, что, проведя 170бросаний монеты, получим (3.2), а, проведя 1850 бросаний, получим (3.3).

Бросание монеты моделируем генерацией случайной величины a ,принимающей значения 1 ("герб") и 0 ("цифра") с вероятностями 1/2. Числопоявлений "герба" в n испытаниях

å=

=n

km

1ka , где ka – результат k -го испытания

Выполнение в пакете STATGRAPHICSСгенерируем 170=n значений a процедурой «Главное меню→

Plot→Probability Distributions» (генерация случайных чисел); при этомпотребуется задать закон распределения «Bernoulli» в появившемся диалоге(рисунок 3.1).

Page 14: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

14

Рисунок 3.1. Выбор генератора случайных чисел.Далее через контекстное меню «Analysis options» настройте

вероятность 0.5 и через контекстное меню «Pane options» настройте объемвыборки, в данном примере 170 (см. рисунок 3.2).

Рисунок 3.2. Настройка генератора и объема выборки.Затем нажмите на панели инструментов (рисунок 3.2) кнопку с

изображением дискеты и сохраните сгенерированные данные в колонку сименем Alpha (хотя вы можете задать любое другое имя).

Вычислим относительную частоту:nmpn = .Перейдем в окно «Expres-

sion Evaluator» (Главное меню→Window→Expression Evaluator), наберем

Page 15: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

15

выражение: «SUM (Alpha)/170 – 0.5» которое означает: просуммироватьмассива alpha, разделить на 170 и вычесть 0.5; результат запишем и убедимся,

что 1.05.0 <-nm (рисунок 3.3).

Рисунок 3.3. Вычисление формулы.

Повторите все действия и вычисления, для объема выборки 1850,

результат запишем и убедимся, что 03.05.0 <-nm .

Задание для самостоятельного выполнения:Вычислите необходимый объем выборки n . Проведите опыт и

удостоверьтесь в выполнении неравенств:

2.05.0 <-nm

3.05.0 <-nm

05.05.0 <-nm

Page 16: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

16

3.2 Закон больших чисел в форме ЧебышеваЦель работы: пронаблюдать суть закона больших чисел в форме

Чебышева.

Основное утверждение. Одно из основных утверждений закона

больших чисел состоит в том, что значение среднеарифметического å=

n

iin 1

1x

случайных величин с равными математическими ожиданиями aiM =x при

большом n (при некоторых широких условиях) оказывается приближенноравным a :

an

iin»

1

1x

уточним: будем писать

an

iin®

1

1x при ¥®n ,

если для любого e >0 и достаточно больших n соотношение

ex <-=å an

iin 1

1 (3.4)

выполняется с вероятностью, стремящейся к 1 с ростом n ; запишем это так:

11

ïþ

ïýü

ïî

ïíì

<-=å ex an

iin

P при ¥®n .

это одно из утверждений закона больших чисел. Заметим, что, как и теоремаБернулли, оно не означает, что соотношение (3.4) достоверно; однако, если nдостаточно велико, то вероятность его выполнения близка к 1, например, 0.98или 0.999, что означает практически достоверно. Приведем полнуюформулировку одной из теорем закона больших чисел в форме Чебышева,

Page 17: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

17

Теоремы Чебышева. Если ,..,..,1 xx n - последовательность попарно

независимых случайных величин, имеющих конечные дисперсии,ограниченные одной и той же постоянной:

,..,..,2,1 xxx D nDD ,

то для любого 0>e

11

1

1

ïþ

ïýü

ïî

ïíì

<==

-R åå exxn

Mn

n

n iiii при ¥®n .

Испытание практически достоверного события.Убедимся в выполнении (3.4) статистически на примере 1.Пример 1. Случайные величины распределены равномерно на отрезке

[0,1]. Если значение e задавать произвольно, а число испытаний выбирать из

условия )9( 2exDn ³ , то (как нетрудно показать) соотношение (3.4)

выполняется с вероятностью 997.0=P , а если )4.5( 2exDn ³ – то с 98.0=P .

Последняя нас устраивает, как практическая достоверность.Положим 1.01 =e и 02.02 =e , определим два соответствующих

значения 451 =n и 11252 =n , и проверим (3.4) экспериментально (в нашемслучае 5.0=a ). Выполнение аналогично п.3.1.

Пример 2. Невыполнение закона больших чиселРассмотрим случайную величину, распределенную по закону Коши с

плотностью

( ))21(

1

xxf

+=p

(3.5)

Заметим, что плотность симметрична относительно нуля, однако, 0 неявляется математическим ожиданием; это распределение не имеетматематического ожидания. Напомним, что математическим ожиданием

называется ò¥

¥-dxxxf )( , если ò

¥

¥-¥<dxxfx )( ; последнее, очевидно, для

распределения Коши не выполняется. Для последовательности независимых

Page 18: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

18

случайных величин, распределенных по закону Коши (3.5), закон больших

чисел не выполняется. Если бы среднеарифметическое å=

ºn

iinn

1

1xx сходилось

с ростом n к какой-либо константе, то, в силу симметрии распределения,такой константой мог быть только 0. Однако, 0 не является точкойсходимости. Действительно, можно показать, что при любом 0>e и прилюбом сколь угодно большом n

1

1n ii

nx e

=å > (3.6)

с вероятностью )(21 ep

arctgP -= (Поясним сказанное: с помощью

характеристических функций легко показать, что xn распределена по (3.5), афункция распределения для (3.5) есть )(xarctg ). Эта вероятность, как видно,не стремится к 0 с ростом n . Например, если 03.0=e , то вероятностьвыполнения (3.6) равна приближенно 98.0»P , т.е. событие (3.6) практическидостоверно, и можно уверенно ожидать его выполнения с одного раза. Если

1=e , то вероятность (3.6) равна 0.5, и выполнение его, хотя бы раз можноуверенно ожидать, проделав 7 экспериментов (т.к. вероятность невыполненияни разу равна 128/1)5.0( 7 = . И это при любом фиксированном n , например,

1000=n . Проверим это экспериментально.При выполнении в пакетах, где нет закона Коши, учтем, что, если

случайная величина X распределена равномерно на отрезке длины p , тослучайная величина

)(XtgY = (3.7)

имеет плотность (3.5). Сгенерируем 7 выборок объемом 1000=n и проверим(3.6) при 1=e .

Выполнение в пакете STATGRAPHICSа) Сгенерируем 7 выборок (переменные 71,..., xx ) объемом n с

равномерным распределением ]1;1[-R и сохраним их в колонки R1,…,R7 (какв пункте 3.1, смотри рисунок 3.1 и выберите «Uniform»).

Page 19: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

19

б) Затем в окне с данными с помощью функции «Generate data»сформируйте 7 выборок распределенных по закону Коши: по формулеTAN(1.570796*R1), для первой выборке и для остальных по аналогии.

в) Вычислим среднеарифметические для семи выборок (аналогично npв п. 3.1); убедимся в том, что хотя бы раз из семи событие (3.6) выполняется.(Если же это не так, значит, нам крупно не повезло: произошло событие свероятностью, меньшей 0.01)

г) В заключение этого примера постройте гистограмму выборки.Выполняется это через: «Главное меню→Plot→Exploratory

Plots→Frequency Histogram». В появившемся диалоге (рисунок 3.4)выберите нужную переменную и задайте ее имя в поле вода «Data».

Рисунок 3.4. Выбор переменной для построения гистограммы.В результате вы получите гистограмму примерно имеющую вид как

представлено на рисунке 3.5.

Рисунок 3.5. Гистограмма выборки.Внешний вид гистограммы вы можете настроить самостоятельно,

вызвав через контекстное меню «Graphic options».

Page 20: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

20

Задание для самостоятельного выполнения:1. Проверить (3.4) экспериментально для экспоненциально

распределенных слагаемых с 1=xM . Принять 2.01 =e и 05.02 =e .2. Проделайте пример 2 с другим объемом выборки, например 1500.

3.3 Сжатие распределения с ростом числа слагаемых

Цель работы: Убедится что распределение (3.8) сжимается с ростом n .

Закон больших чисел в форме Чебышева означает, что распределениеслучайной величины

x xn in

n i=

1

1(3.8)

сжимается с ростом n . Если математические ожидания одинаковы, т.е.aM i =x , то сжатие происходит в окрестности точки a .Аналитически иллюстрировать сжатие можно, если распределение для

xn легко выписывается. Например, если ix распределены нормально

),( 2saN , то случайная величина xn распределена по )/,( 2 naN s . Построимграфики плотностей для n =1, 4, 25, 100 и =1, a =1 (сделаем это в целяхосвоения пакета).

Статистически убедиться в сжатии можно, наблюдая гистограммы приразличных значениях n (например, для n =10, 40, 160, 640). Сгенерируем kраз (например, хотя бы k =20) случайную величину xnº x : x xk1,.., ипостроим для этой выборки средних гистограмму. Сравнивая гистограммыдля различных n , мы заметим сжатие (сделать самостоятельно). Сжатиеможно увидеть определением для каждого n по x xk1,.., минимального minx ,максимального maxx значений и размаха minmax xxw -= .

Выполнение в пакете STATGRAPHICSa) графики плотностей:

Page 21: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

21

Постройте 4 графика функции плотности нормального закона сразными настройками (рисунок 3.1, выберите пункт «Normal»). Задайте

1.0;2.0;5.0;1 ==== ssss . В итоге получатся графики как на рисунке 3.6.

Рисунок 3.6. Нормальное распределение с различными s .

б) Разброс средних.1. Получим достаточно большой массив случайных чисел,

распределенных равномерно на [0,1] (из этого массива в дальнейшем будемформировать последовательности различной длины).

2. Сформируем 20=k последовательностей длиной 10=n , т.е. таблицус 10=n строками и 20=k столбцами:

Результатом выполнения этого оператора будет матрица X 10´20,полученная из первых 10´20 =400 значений переменной z; 20 столбцов этойматрицы являются 20 последовательностями длины 10=n ;

3. По каждой из 20=k последовательностей nxx ,...,1 определим

среднее арифметическое xn ix

i

1

1 (обозначив его в пакете xs); это сделаем

так: образуем новую переменную назвав ее xs10, рассчитаем ее черезформулу:

SUM X /10Этот оператор (в пакете операторы выполняются справа налево) все

значения переменной X разделит на 10, затем в каждом столбце вычислитсумму; результат – вектор xs10 длиной 20=k . просмотрите полученныесреднеарифметические x xk1 ,.., по 20=k на экране.

4. Для оценки разброса случайной величины x , определиммаксимальное maxx = xi

kimax££1

и минимальное minx значения, а также

minmax xxw -= :

Page 22: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

22

MIN xs10

MAX xs10

Запишем результаты в таблицу 3.1 и вычислим размах.Таблица 3.1. Разброс средних.

n minx maxx w10 0.371 0.687 0.3240 0.418 0.606 0.19

160 0.472 0.550 0.08320 0.523 0.469 0.05

5. Построим гистограмму для x xk1 ,..,6. Повторим пункты 2, 3, 4, 5 для 40=n , затем для 160=n и 320

(занося данные в таблицу 3.1). В результате будут созданы массивы xs40,xs160, xs320. Из таблицы 3.1 видно, что разброс среднеарифметического x сростом n уменьшается, т.е. распределение x сжимается.

Графически разброс средних можно представить в виде графика нарисунке 3.7.

Рисунок 3.7. Разброс средних при разных n .

Задание для самостоятельного выполнения:Выполните описанные действия с другими объемами данных.

3.4 Центральная предельная теорема

Page 23: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

23

Цель работы: Убедится в выполнении центральной предельнойтеоремы.

Содержание теоремы.Закон больших чисел утверждает, что при ¥®n

1

1nаi

i

nx

=å ® ,

где iMa x= . Центральная предельная теорема утверждает нечто большее, а,именно, что при этом стремлении происходит нормализация:

),(~1 2

1 ncN

n

n

ii

sxå=

, (3.9)

где iDxs =2, т.е среднеарифметическое при больших n распределено

приближенно по нормальному закону с дисперсией n/2s ; этот фактзаписывают иначе, нормируя сумму:

)1,0(~1 Nn

nan

ii

s

x -å= .

Приведем формулировку одной из теорем.Теорема Линдеберга. Если последовательность взаимно независимых

случайных величин ,...,...,, 21 nxxx . при любом постоянном 0>tудовлетворяет условию Линдеберга

å ò= >-

¥®=-

n

k Baxkk

nnK

xdFaxB 1 ||

22 0)()(1lim

t,

где kk Ma x= , å=

=n

kkn DB

1

2 x , то при ¥®n равномерно относительно x

®

ïïþ

ïïý

ü

ïïî

ïïí

ì

<-

å

å

=

= xD

aP

n

kk

n

kkk

1

1)(

x

xò¥-

-x

z dze 2/2

21p (3.10)

Следствие. Если независимые случайные величины ,...,...,, 21 nxxxодинаково распределены и имеют конечную отличную от нуля дисперсию, то

Page 24: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

24

выполняется (3.10). Условие Линдеберга в этом случае, т.е. aM k =x ,2sx =kD , )()( xFxFk = , принимает вид: при любом 0>t и при ¥®n

ò>-

®-nax

xdFaxts\\

0)()( 2 ;

оно, очевидно, выполняется, поскольку интеграл по всей оси, т.е. дисперсия,существует.

Убедимся статистически в том, что сумма нескольких случайныхвеличин распределена приближенно по нормальному закону.

Одинаково распределенные слагаемые.Сделаем это на примере суммы

S xkk

m=

1(3.11)

шести ( 6=m ) независимых случайных величин, имеющих beta-распределение с параметрами a=b=0.5, плотность которого

)1(11

),()1(),|(

11

xxbaBxxbaxp

ba

-=

-=

--

p, (3.12)

где ò -- -=1

0

11 d)1(),( zzzbaB ba – beta-функция. Плотность при выбранных

значениях параметров имеет U-образный вид, весьма далекий отнормального; убедимся в этом, построив график плотности.

Чтобы статистически оценить закон распределения для суммы S ,следует многократно, N раз (например, 500=N ), промоделироватьсуммирование: получим NSSS ,...,, 11 – выборку для суммы; для этой выборкипостроим гистограмму и сравним ее визуально с нормальной плотностью.

Выполнение в пакете STATGRAPHICSа) Генерация 6=m выборок объемом 2000=N с beta-распределением

(a=b=0.5). Параметры а и b, объема выборки Number of samples: 500, контрольсостояния Seed генератора случайных чисел: оно не должно превышать 21 напервых двух позициях (точнее, это число не должно превышать 2147483646).

Повторим генерацию еще 5 раз; получим 62 xx ¸ .б) Образуем сумму S из 2, 4 и 6 слагаемых:

Page 25: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

25

Повторим предыдущее, для образования суммы из 4 слагаемых:

4324 xxSS ++= и шести: 6546 xxSS ++= .в) Убедимся в том, что все шесть слагаемых с 61 xx ¸ распределены

далеко не нормально – построим для них гистограммы:Выполняем «Distribution Fitting» (подбор распределения; можно было

бы «Frequency Histogram» (гистограмма), однако, первый вариант удобнее,поскольку одновременно с гистограммой пакет показывает наилучшимобразом подобранную нормальную плотность).

Повторяем график для 62 xx ¸ . Один из них распечатываем.г) Убедимся в том, что с ростом числа слагаемых m = 2, 4, 6

распределение (гистограммы и функции эмпирического распределения) длясуммы ( 642 ,, SSS ) приближается к нормальному.

Выполняется так же, как и предыдущий пункт, распечатываемгистограммы для ( 642 ,, SSS ; дополнительно наблюдаем гистограммунакопленных частот (режим Cumulative) в относительных единицах (режимRelative) и определяем максимальное отклонение .наблND между

эмпирическим и подобранным нормальным функциями для каждой из сумм

642 ,, SSS .

Задание для самостоятельного выполнения:Выполните описанные действия с другими объемами данных.

Page 26: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

26

4 КЛАССИФИКАЦИЯ В РАСПОЗНАВАНИИ ОБРАЗОВ

4.1 Исследование байесовского правила классификации враспознавании образов при непрерывных информативных признаках(условные плотности известны с точностью до параметров)

Цель работы: исследование решающего правила классификации приусловиях:

· Имеется два независимых непрерывных информативныхпризнака 21, XX и два класса 2,1=j ;

· Априорные вероятности классов ,2,1),( =jjP неизвестны;· Условные плотности вероятности (при условии истинности того

или иного класса) для информативных признаков известны с

точностью до параметров 2,1),,( 21 =qq=q jjjjrrr

:

2,1),,|(),|(),|,( 221121 =qqºq jjxfjxfjxxf jjjrrr

;

· известна обучающая выборка объёма 21 nnn += :

o 112

11 1

,,, nxxx rK

rr , когда истинным является класс 1;

o 222

21 2

,,, nxxx rK

rr , когда истинным является класс 2.

За основу берётся байесовское правило классификации с заменой в нёмаприорных вероятностей и условных плотностей вероятности ихсостоятельными оценками:

,2,1),(ˆ =jjP

,2,1),ˆ,|()ˆ,|()ˆ,|,( 221121 =qqºq jjxfjxfjxxf jjj

rrr

В результате решающая функция приобретает форму:

)2(ˆ)ˆ,2|,()1(ˆ)ˆ,1|,(),( 22112121 PxxfPxxfxx q-q=hrr

и в пороговом байесовском решающем правиле она сравнивается с нулём:· если ),(0 21 xxh< , то принимается решение об истинности первого

класса;

Page 27: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

27

· если же 0),( 21 <h xx , то принимается решение об истинностивторого класса.

По обучающей выборке доопределяются априорные вероятности:

2121 ,)2(,)1( nnn

nnP

nnP +===

))

и параметры )ˆ,ˆ(ˆ),ˆ,ˆ(ˆ2212221111 qqºqqqºqrrrrrr

условных плотностей )ˆ,1|,( 121 qr

xxf ,

)ˆ,2|,( 221 qr

xxf . Причём, первая группа оценок параметров )ˆ,ˆ(ˆ21111 qqºqrrr

находится по первой части обучающей выборки (когда истинным является

класс 1), а вторая группа оценок параметров )ˆ,ˆ(ˆ22122 qqºqrrr

находится по второйчасти обучающей выборки (когда истинным является класс 2).

При исследовании построенного решающего правила (алгоритмаработы классификатора) за счёт имитации статистических свойств объектаклассификации необходимо получать обучающую выборку. Этот этап обычноосуществляется следующим образом. Исследователь по своему выбору задаетстатистические свойства объекта в виде структуры ),|,( 21 jjxxf q

r и

параметров jqr

условных плотностей вероятности ºq ),|,( 21 jjxxfr

2,1),,|(),|( 2211 =qqº jjxfjxf jjrr

, априорных вероятностей классов

,2,1),( =jjP и общего объема обучающей выборки n .Всё вышеперечисленное объединено в блок-схему последовательности

выполнения операций, представленную на рисунке 4.1.При составлении плана исследований студенты выделяют варьируемые

переменные (плотности распределения, параметры) на фоне всех возможныхпеременных:

1 Структуры условных плотностей вероятности (например,равномерный, нормальный, экспоненциальный др. законы) для объектаклассификации, параметры плотностей, априорные вероятности классов.

2 Структуры выбранных условных плотностей вероятностиклассификатора, алгоритмы расчёта оценок параметров этих плотностей иаприорных вероятностей классов.

3 Объём обучающей выборки n .Затем конкретизируют структуры условных плотностей (это

нечисловые, неупорядоченные дискретные переменные) и дискретныечисловые значения соответствующих варьируемых параметров.

Page 28: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

28

Для каждого набора указанных дискретных значений производится

вычисление оценки вероятности ошибки классификацииn

nP ошошˆ = , где ошn –

число ошибочных решений классификатора на обучающей выборке. В итогеполучается так называемый «куб данных», на основе которого строятсяграфики (обычно, двумерные и трёхмерные, хотя могут быть построены иболее полные аналитические степенные квадратичные модели с помощьюиспользования планов второго порядка) и дается им объяснение всоответствии с теорией классификации.

Page 29: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

29

Задаются исследователемструктуры условных

плотностей классификаторас точностью до параметров

Доопределяются параметрыусловных плотностей иаприорные вероятности:

Строится байесовское решающее правило:

)2(ˆ)ˆ,2|,()1(ˆ)ˆ,1|,(),(ˆгде

истинный,2классто,0),(ˆеслиистинный,1классто,0),(ˆесли

22112121

21

21

PxxfPxxfxx

xxxx

qqh

hh

rr-=

<>

.2,1),,|,( 21 =q jjxxf j

r

Задаются исследователемстатистические характеристики

объекта:

Формируется обучающаявыборка объёма n :

.2,1),(классовивероятностаприорные

,2,1,плотностей уусловныхпараметры

,2,1),,|,(плотностейусловныхструктура

21

=

=q

=q

jjP

j

jjxxf

j

j

r

r

)2(ˆ),1(ˆ,ˆ,ˆ21 PPqqrr

Исследователь может менять

Вычисляется показатель качества работы классификатора:

.2классявляетсяистиннымкогда,,,,

1,классявляетсяистиннымкогда,,,,

)2()2(2

)2(1

)1()1(2

)1(1

2

1

n

n

xxx

xxx

rK

rr

rK

rr

:, 21 qqrr

nnP ош

ошˆ =

Рисунок 4.1. Блок-схема последовательности выполнения операций

Page 30: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

30

4.2 Исследование байесовского правила классификации враспознавании образов при непрерывных информативных признаках(условные плотности известны с точностью до параметров) и безобучающей выборки.

Цель работы: исследование решающего правила классификации приусловиях:

· Имеется два независимых непрерывных информативныхпризнака 21, XX и неизвестно сколько классов;

· Априорные вероятности классов неизвестны;· Все условные плотности вероятности (при условии истинности

того или иного класса) для информативных признаков одинаковыи известны с точностью до параметров K

rrr,1),,( 21 =qq=q jjjj :

Krrr

,1),,|(),|(),|,( 221121 =qqºq jjxfjxfjxxf jjj ;

· обучающая выборка неизвестна. Имеется обыкновенная выборкаобъёма n .

Как видно из условий задача очень похожа на уже рассмотренную впункте 4.1 задачу, но эта ситуация более сложная и к тому же болеераспространенная на практике Необходимо построить самообучающуюсясистему классификации.

Рассмотрим один из вариантов.По количеству максимумов мы можем

определить количество классов.По количеству минимумов и их

положению мы можем определить границыклассов, что позволит произвести разбиениеисходной выборки на две части и тем самымсвести практически свести ситуацию кзадаче, описанной в пункте 4.1.

Далее строится процедура последовательного (итерационного) расчетапорога (в многомерном случае – разделяющей поверхности) c . Например,

задается нулевое приближение порога c0 . Оно разбивает исходную выборку(по которой оценивалась безусловная плотность f x( ) на две части. Выборкастановится обучающей. По ней (как было рассмотрено выше) оцениваютсяусловные взвешенные плотности f x P( | ) ( )1 1 и f x P( | ) ( )2 2 , а следовательно,

f x( )

xcf x P( | ) ( )1 1 f x P( | ) ( )2 2

Рисунок 4.2

Page 31: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

31

решающая функция и новое приближение порога c1 (разделяющейповерхности) и т. д.

Возможны и другие пути самообучения.Например для моделирования этой ситуации вы можете взять два

класса ( m = 2), один информативный признак и условные плотности2,1),|( =jjxf , – это нормальные законы распределения:

2

2

21)1|(

x

exf-

p= , ¥<<¥-

p=

--

xexfx

,21)2|( 2

)4( 2

.

Если законы имеют одинаковую единичную дисперсию и отличаютсяматематическими ожиданиями: 1m = 0, 2m = 4, то итоговые плотностираспределения )(xf информативного признака X при различных значенияхаприорных вероятностей классов )1(P и )2(P приведены на рис. 4.3.

)(xf )(xf )(xf

x x x

При реализации лабораторной работы необходимо варьировать:количество классов, математические ожидания и априорные вероятностиклассов.

Для наглядной демонстрации реализованная программа должнавыводить графики похожие на те, что приведены на рисунке 4.3.

Page 32: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

32

5. ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТА

5.1 Исследование алгоритмов построения степенных моделей сиспользованием ортогональных планов первого и второго порядков

Цель работы: исследование алгоритмов планирования экспериментапри построении степенных моделей первого и второго порядка.

Объект исследования (рисунок. 5.1) имеет два входа 21, uu и одинвыход y . Основная проблема планирования эксперимента состоит в созданиитаких планов покачивания входных переменных (при снятииэкспериментальных данных [ niyuu iii ,1),,,( 21 = ] с объекта), которыеобеспечивают более быстрое и точное построение модели объекта. Выходобъекта y состоит из неизвестного сигнала (здесь )(×j – неизвестная функцииот входов, называемая поверхностью отклика) и центрированной аддитивнойпомехи ( 0)( =hM ).

u1

2uy

huuy +j= ),( 21

Модель первого порядка:º-a+-a+a= )()(ˆ 0

22201110 uuuuy

22110 xx b+b+bº ,

2,1,,, 00

0

=Da=ba=bD-

= juu

uux jjj

j

jjj

Модель второго порядка:

º-a+--a+-a+

+-a+-a+a=20

2222022

01112

201111

0222

01110

)())(()()()(ˆ

uuuuuuuuuuuuy

22222112

211122110 xxxxxx b+b+b+b+b+bº

Page 33: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

33

,2,1,,00 =Da=ba=b ju jjj

222222211212111111 ,, uuuuuu DDa=bDDa=bDDa=b

Здесь ),( 02

01 uu – базовая точка.

Измерения выхода объекта некоррелированные равноточные.Расчёт параметров b

r моделей первого и второго порядков в

безразмерных переменных проводится по методу наименьших квадратов.Построение линейной моделиИтак, модель имеет вид:

221100222

01110 )()(ˆ xxuuuuy b+b+bº-a+-a+a=

Необходимо на основеэксперимента: niyuu iii ,1],,,[ 21 = )

вычислить коэффициенты 210 ,, aaaмодели.

Экспериментальные точки длявходных координат зададим ввершинах гиперпрямоугольника. Точкитакого плана для m = 2 показаны вверхней части рис. 5.2. Эти точкиравномерно распределеныотносительно известной базовой точки

),( 02

01

0 uuu = .

Интервалы покачивания 21, uu DDотносительно базовой точки задаются экспериментатором, и они определяютобласть изучения объекта. Для этой области и строится линейная модель.

С целью унификации процедур построения планов, исследования ихсвойств, расчета параметров и исследования качества модели осуществляетсяпереход от размерных входных переменных 21, uu к безразмерным 21, xx :

2,1,0

=D

-= j

uuu

xj

jjj .

Точки плана в вершинах прямоугольника (верхняя часть рисунка 4) вновых координатах оказываются в вершинах квадрата с единичнымикоординатами (нижняя часть рисунка. 5.2). Центр плана переходит в начало

u1

u2

u20

u10

Du2

Du2Du1 Du1

2 1

34

1

34

2 1

-1

-1

Рисунок 5.2

1x

2x

1

Page 34: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

34

координат. Полученный план представлен в табл. 5.1. В этом плане кромебезразмерных входных переменных x1 , x2 введены столбец фиктивной

переменной x0 и столбец измерений выхода объекта в каждой точке плана.Фиктивный столбец состоит из +1 и служит для симметрии расчета всехкоэффициентов модели. Для упрощения записи плана единица опускается и

указывается только знак единичнойкоординаты.

В новых безразмерных координатах

21, xx линейная модель также сохраняетлинейный вид:

221102221110 xxxuxuy b+b+bºDa+Da+a=)

Из этого уравнения следует алгоритм расчета коэффициентов }{ ja по

коэффициентам }{ jb :

2,1,,00 =D

b=ab=a j

u j

jj

Параметры 2,1,,0 =bb jj модели рассчитаем по критерию

наименьших квадратов

å= bbb

- =b-b-b-s=n

iiy xxyI

1 ,,

222110

2

210min)(

предполагая, что измерения выхода nyy ,,1 K некоррелированные и

равноточные с дисперсией 2ys . Из этого критерия следует система линейных

алгебраических уравнений:

[ ] ),(),(),(),( 02

2201100002 yxxxxxxx yy

-- s=b+b+bs ,

[ ] ),(),(),(),( 12

2211110012 yxxxxxxx yy

-- s=b+b+bs ,

[ ] ),(),(),(),( 22

2221120022 yxxxxxxx yy

-- s=b+b+bs .

Таблица 5.1n x0 x1 x2

y1 + + + y12 + – + y23 + + – y34 + – – y4

Page 35: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

35

Здесь 2,1,0, =jx j – столбцы матрицы планирования, включая

фиктивный столбец x0 , состоящий из "плюс единиц", y – столбец измерений

выхода объекта; ( , )x xk j и ( , )x yk – скалярные произведения столбцов

матрицы планирования:

( , ) , ( , )x x x x x y x yk j ki jii

n

k ki ii

n= =

= =å å

1 1

Если реализован план, представленный в табл. 5.1, то векторы-столбцы

210 ,, xxx взаимно ортогональны, т. е. == ),(),( 2010 xxxx 0),( 21 == xx .Система уравнений распадается на независимые уравнения, из которыхвычисляются параметры модели:

2,1,0,),(

),(),(

===b jn

yxxxyx j

jj

jj

Здесь учтено, что скалярные произведения векторов 210 ,, xxx самого насебя одинаковы и равны количеству измерений.

Корреляционная матрица bK для параметров, удовлетворяющих

критерию наименьших квадратов, равна матрице, обратной матрице системыалгебраических уравнений для b

r:

bK =

1

221202

211101

2010002

),(),(),(),(),(),(),(),(),( -

-

÷÷÷

ø

ö

ççç

è

æ

÷÷÷

ø

ö

ççç

è

æs

xxxxxxxxxxxxxxxxxx

y =

=

1

22

11

002

),(000),(000),( -

-

÷÷÷

ø

ö

ççç

è

æ

÷÷÷

ø

ö

ççç

è

æs

xxxx

xx

y =

=÷÷÷

ø

ö

ççç

è

æ

s-

-

-

122

111

100

2

),(000),(000),(

xxxx

xx

y =

=÷÷÷÷

ø

ö

çççç

è

æ

s

s

s

nn

n

y

y

y

/000/000/

2

2

2

.

Page 36: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

36

Параметры некоррелированные и дисперсия их одинакова:

2,1,0,2

2 =s

=sb jn

yj

.

Дисперсия выхода линейной модели

)1()1( 22

1

22

1

22220

r+s=+s=s+s=s b=

b=

bb ååm

jj

m

jjy xx

j) , å

==r

m

jjx

1

22 .

одинакова на равном расстоянии от центра плана, т. е. ортогональный планпервого порядка является и ротатабельным.

Проверим адекватность модели. Вычисляем остаточную суммуквадратов Imin , делим ее на число степеней свободы 11 --=n mn иполучаем остаточную дисперсию (дисперсию адекватности):

å=

---

=sn

iii yy

mn 1

22ад )(

11 )) .

Здесь yi – выход объекта в i -й точке эксперимента, iy) – выход модели втой же точке. При хорошем описании с помощью модели y) сигнальной части

)(×j выхода объекта остаточная дисперсия оценивает дисперсию 2ys выхода

объекта.

Плохо, что у остаточной дисперсии 2адs) только одна степень свободы

112411 =--=--=n mn . Вынести гарантированное решение с помощьютакой «плохой» оценки нельзя. Для улучшения итогового решения об

адекватности модели надо увеличить число степеней свободы оценки 2адs) за

счёт проведения в каждой точке плана нескольких (3–5) измерений.Коррекцию формул расчёта проведите самостоятельно.

На основе дополнительного эксперимента объема n0 в центре плана

строим оценку 2ys

) для дисперсии 2ys выхода объекта. Число степеней

свободы для оценки 2ys

) равно величине n2 0 1= -n .

Далее по статистике Фишера 22ад / yF ss= )) проверяется гипотеза о

равенстве дисперсий. Эта гипотеза совпадает с гипотезой об адекватностимодели. Если статистика F не превосходит порогового значения ann ,, 2

F , то

Page 37: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

37

принимается гипотеза об адекватности модели. В противоположном случаеэта гипотеза отвергается. Тогда надо заново строить модель, например,усложняя ее за счет введения дополнительных факторов, либо отказыватьсяот линейной модели и переходить к построению квадратичной модели.

Блок схема последовательности выполнения операций приведена нарис. 5.3.

Объект

Проверка гипотезы адекватности линейной модели

huy +j= )(Ортогональный план

порядка

База экспериментальных данных входов и выходовобъекта

Исследователь может менять базовую точку, размерыобласти поиска, а также сигнальную часть и помеху (при

имитации объекта)

Рисунок 5.3. Блок-схема последовательности выполненияопераций

при построении линейной модели

Базовая точка,размеры области

поиска

Расчёт параметров линейной степенной модели вбезразмерных и размерных входных переменных

Page 38: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

38

Построение квадратичной модели.При построении более сложной квадратичной модели 2-го порядка

22222112

211122110ˆ xxxxxxy b+b+b+b+b+bº

Используем композиционный ортогональный (при этом 1=a ) планБокса – Уилсона – см. таблицу 5.2. Здесь же показана замена столбцов с

квадратичными переменными x12 , x2

2 соответствующими столбцами 1x¢ , 2x¢ .

Все элементы каждого столбца x12 , x2

2 отличаются от

соответствующих элементов столбцов 1x¢ , 2x¢ на свою постоянную величину(среднее арифметическое):

2,1,11

2222 =-=-=¢ å=

ixxxn

xxn

illlill

Таблица 5.2n x0 1x 2x 21xx x1

2 x22

1x¢ 2x¢1 + + + + + + 31 312 + – + – + + 31 313 + + – – + + 31 314 + – – + + + 31 315 + + 0 0 + 0 31 32-6 + – 0 0 + 0 31 32-7 + 0 + 0 0 + 32- 318 + 0 – 0 0 + 32- 319 + 0 0 0 0 0 32- 32-

В новых переменных все столбцы x0 , 1x , 2x , 21xx , 1x¢ , 2x¢ортогональны.

С учетом новых переменных ¢xl имеем следующее уравнение модели:

=+¢b++¢b+b+b+b+b= )()( 22222

21111211222110 xxxxxxxxy)

º¢b+¢b+b+b+b+b+b+b= 222111211222112222

21110 xxxxxxxx

222111211222110 xxxxxx ¢b+¢b+b+b+b+b¢º .

Здесь 2222

211100 xx b+b+b=b¢ .

Page 39: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

39

План реализуется на объекте – см. таблицу 5.3. Например, в точке 5плана 11 =x , 02 =x , что соответствует реальным входным переменным:

1011 uuu D+= , 0

22 uu = . Реализуем эти значения входов на объекте и измеряем

значение выходной переменной 5y .

Таблица 5.3n x0 1x 2x 21xx 1x¢ 2x¢ y1 + + + + 31 31 1y2 + – + – 31 31 2y3 + + – – 31 31 3y4 + – – + 31 31 4y5 + + 0 0 31 32- 5y6 + – 0 0 31 32- 6y7 + 0 + 0 32- 31 7y8 + 0 – 0 32- 31 8y9 + 0 0 0 32- 32- 9y

Параметры 221112210 ,,,,, bbbbbb¢ в силу ортогональности планавычисляются независимо (так же как и при использовании ортогональногоплана первого порядка):

å= b

- =¢b-¢b-b-b-b-b¢-s=n

iiy xxxxxxyI

1

222111211222110

2 min)(

åå==

====b¢9

11

0

00

00 9

11),(),(),(

ii

n

ii yy

nnyx

xxyx

,

6),(

),(),( 1

11

11

yxxxyx

==b ,6

),(),(),( 2

22

22

yxxxyx

==b ,

4),(

),(),( 21

2121

2112

yxxxxxxyxx

==b ,

2),(

),(),( 1

11

111

yxxxyx ¢

=¢¢

¢=b ,

2),(

),(),( 2

22

222

yxxxyx ¢

=¢¢

¢=b .

Параметры некоррелированные и дисперсии их различны:

Page 40: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

40

9

222

0

yy

ns

=s

=sb¢ ,6

222

21

ys=s=s bb ,4

22

12

ys=sb ,2

222

2211

ys=s=s bb .

В заключение остается пересчитать коэффициент

32

32

221102222

211100 b-b-b¢=b-b-b¢=b xx ,

который оценивает сигнальную часть выхода объекта в центре плана.В итоге построена модель второго порядка:

=b+b+b+b+b+b= 2222

2111211222110 xxxxxxy)

+-a+-a+a= )()( 0222

01110 uuuu

202222

201111

022

01112 )()())(( uuuuuuuu -a+-a+--a+

00 b=a ,1

11 uD

b=a ,2

22 uD

b=a ,

21

1212 uu DD

b=a , 2

1

1111

)( uDb=a , 2

2

2222

)( uDb

=a .

Адекватность модели проверяется по той же схеме, как и длялинейной модели. Соответствующие формулы выпишите самостоятельно.

Блок схема последовательности выполнения операций при построенииквадратичной модели приведена на рис. 5.4.

Page 41: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

41

Объект

Проверка гипотезы адекватности квадратичной модели

huy +j= )(Ортогональный план

второго порядка

База экспериментальных данных входов и выходов объекта

Исследователь может менять базовую точку, размеры областипоиска, а также сигнальную часть и помеху (при имитации

объекта)

Рисунок 5.4. Блок-схема последовательности выполнения операцийпри построении квадратичной модели

Базовая точка,размеры области поиска

Расчёт параметров квадратичной степенной модели вбезразмерных и размерных входных переменных

Рисунок 5.4. Блок-схема последовательности выполнения операций припостроении квадратичной модели

При исследовании алгоритмов построения моделей естественноиспользуется имитация объекта.

На рисунке 5.5 приведена блок-схема последовательности выполненияопераций при имитации объекта.

Интенсивность помехи берётся по отношению к интенсивностисигнальной части. Показатели интенсивности и относительную величину

Page 42: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

42

интенсивностей Вы должны выбрать самостоятельно и использовать приустановлении соответствующих закономерностей.

22

21)( uuu +=j

huuy ++= 22

21

Приведённые ранее блок-схемы помогут Вам составить и выполнятьплан исследований.

Для исследования свойств метода планирования экспериментарекомендуется использовать в качестве имитируемых объектов: линейныйобъект с двумя входами, квадратичный объект с двумя входами и любойнелинейный объект так же с двумя входами.

Более сильным студентам можно выдать задание на исследованиеметода планирования эксперимента если вышеперечисленные имитируемыеобъекты будут иметь три входа.

Page 43: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

43

6. МЕТОДЫ НЕПАРАМЕТРИЧЕСКОЙ ОБРАБОТКИИНФОРМАЦИИ

6.1 Исследование оценок "К ближайших соседей" и Розенблатта –Парзена

Цель работы: исследование свойств непараметрических оценок "Кближайших соседей" и Розенблатта – Парзена.

Входные данные: случайная величина, распределенная по некоторомузакону распределения (задается во время работы программы), параметрыслучайной величины (зависят от выбранного закона), объем выборки n ипараметры оценок (для оценки "К ближайших соседей" это k – количествоближайших «соседей», а для оценки Розенблатта – Парзена это коэффициентразмытости h и вид ядра).

Оценка по методу "К ближайших соседей" имеет вид:

),,(21)(

xnknkxf

n

nn r

-=

Оценка Розенблатта – Парзена имеет вид:

÷øö

çèæ -

= å= h

xxKhn

xf in

in

1

11)(

Для исследования необходимо ввести параметры моделируемойслучайной величины, сгенерировать выборку объема n (рекомендуемыйобъем 30³n ). Ввести параметры для оценок.

Затем построить график на котором будут изображены точки выборки играфик выбранной оценки.

Произвести анализ зависимости оценок от своих параметров и отобъема выборки.

Определить наилучший вид ядра для оценки Розенблатта – Парзена.Произвести сравнение оценок между собой.

Page 44: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

44

Проверить работу оценок при больших объемах выборки ( 1000³n ).Исследовать, как зависит оценка Розенблатта – Парзена от

коэффициента размытости с ростом объема выборки.

6.2 Исследование непараметрической оценки прямой регрессии

Цель работы: исследование свойств непараметрической оценки прямойрегрессии (между выходом и входом объекта).

Регрессией называют первый начальный условный момент:

)()|(}|{ xdyxyfyxYM h== ò¥

¥-

.

Это одна из простейших усредненных количественных зависимостеймежду выходом Y и входом X объекта. X и Y – это непрерывныеизмеряемые случайные величины.

Оценка )(xnh регрессии строится на основе серии измерений выхода и

входа объекта: x y i ni i, , ,= 1 :

å=

÷øö

çèæ -

=hºn

ii

iNn y

hxxKxxYM

1)(}|{

),

å=

÷÷ø

öççè

æ -

÷øö

çèæ -

=÷øö

çèæ -

n

j

j

i

iN

hxx

K

hxxK

hxxK

1

.

Колоколообразная функция ÷øö

çèæ -

hxxK i

N по форме повторяет ядро K( )×

и отличается от него на нормирующий множитель å=

÷÷ø

öççè

æ -n

j

j

hxx

K1

/1 . За счет

этого å=

=÷øö

çèæ -n

i

iN h

xxK1

1, т. е. ядро ÷øö

çèæ -

hxxK i

N нормировано на 1 на системе

экспериментальных точек.

Нормированность ядер ÷øö

çèæ -

hxxK i

N приводит к условию:

Page 45: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

45

},1,max{)(},1,min{ niyxniy ini =£h£= ,

которое говорит о существовании полосы, за пределы которой невыходит непараметрическая оценка регрессии.

Ядра K z( ) колоколообразные усечённые нормированные. Этофактически некоторые плотности распределения вероятности. Примерыпрямоугольного, треугольного, параболического и кубического ядерприведены ниже:

îíì

<£= .||1,0

,1||,5.0)( zzzK

îíì

<£-

=|;|1,0,1|||,|1)(

zzzzK

îíì

<£-=

|;|1,0,1||),1(75.0)(

2

zzzzK

îíì

<£-+=

.||1,0,1||,|)|1|)(|21()(

2

zzzzzK

Усечённость нормированных ядер )(×NK (в силу усечённости ядра

K( )× ) позволяет при построении оценки )(xnh в каждой фиксированной

точке x учитывать только несколько близлежащих значений xi и не"перелопачивать" всю выборку.

Выбор оптимальной формы ядра K( )× и коэффициента размытости h( )×решается так же как и для оценок плотностей. Записывается квадратичныйкритерий оптимальности:

hKn dxxxMhKI,

2 min})]()({[),( =h-h= ò¥

¥-

и из него отыскивается решение:

îíì

££-

=,||1,0

,1||),1(75.0)(

2

zzz

zK .0,)( 5/1 ccnnh £= -

Функция качества ),( hKI от формы усеченных "колоколообразных"ядер K( )× зависит слабо. Основное влияние оказывает положительнаяконстанта c , но зависимость I от c при возрастании n ослабевает. Формаядра усеченная параболическая. Константа c , определяющая коэффициент

Page 46: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

46

размытости, вычисляется по выборке путём минимизации эмпирическихпоказателей (характеризующих наилучшее сглаживание экспериментальныхданных).

Считаем, что выборке niyx ii ,1),,( = измерениях входа находятся на

равных расстояниях друг от друга D = - = -+x x i ni i1 1 1( , ) , а объем выборкиn фиксирован. Перейдем от размерного параметра c (его размерность,обратная размерности x ) к безразмерному b :

5/11 nc D=b - .

Оценка регрессии приобретает вид:

å=

÷øö

çèæ

D-

b=hºn

ii

iNn yxxKxxYM

1)(}|{

)

å=

÷÷ø

öççè

æD-

b

÷øö

çèæ

D-b

=÷øö

çèæ

D-

bn

j

j

i

iN xx

K

xxKxxK

1

Интервал изменения коэффициента b : 10 £b£ .

При 0=b оценка регрессии )(xnh не зависит от x . Такой вариант,хотя и редко, но возможен. Выбранный вход объекта не оказывает влияния навыход объекта.

При 1=b оценка регрессии )(xnh точно проходит черезэкспериментальные точки, т. е. оценка не осуществляет сглаживанияэкспериментальных дынных. Такой вариант тоже возможен, если сигнальнаячасть выхода объекта не зашумлена помехой.

При наличии помех в выходе объекта оценка должна сглаживатьэкспериментальные дынные. Этот наиболее распространённый вариантсоответствует параметру b , находящемуся внутри интервала [0; 1]. Для еговычисления необходимо строить критерии оптимальности.

Среди возможных критериев оптимальности непараметрическойоценки регрессии (что эквивалентно оптимальности параметра b )приближенными к реальным ситуациям являются два из них.

Один критерий основан на использовании "скользящего экзамена":

Page 47: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

47

å= b

=h-=n

iinin xy

nI

1

21 min))((1

,

å¹=

÷øö

çèæ -

=hn

kk

kiNin

ik

yh

xxKx1

)(

Выборка x y i ni i, ( , )= 1 при этом своеобразно разбивается на две части:

одна используется для построения модернизированной модели )(xnh , вторая

– для ее проверки (по вышеуказанному критерию). Первое слагаемое в nI1 (т.

е. при i = 1) равно квадрату невязки между выходом объекта y1 и выходом

модели )( 1xnh в первой экзаменующей точке ( , )x y1 1 . Эта экзаменующая

точка не участвует в построении (в обучении) модели )( 1xnh . Затем берется

вторая экзаменующая точка ( , )x y2 2 и в ней вычисляется квадрат невязки

между выходами объекта y2 и модели )( 2xnh , где модель )( 2xnh построена

по всей выборке кроме точки ( , )x y2 2 , и т. д. Функция качества nI1 имеет

относительно параметра b хорошо выраженный минимум. У этого критерияесть свои особенности.

При 15.0 <b£ оценка )( in xh остается постоянной:

2/)()( 11 +- +=h iiin yyx ,

т. е. независящей от b . Следовательно, функция

качества nI1 перестает зависеть от b . Если оптимальное

значение (по другому критерию) параметра b находится в

интервале [0.5; 1.0], то минимизацией функции качества nI1

мы его не найдем (см. кривую 1 на рисунке 6.1). Второйвариант (кривая 2 рисунке 6.1) соответствует более лучшейситуации, когда 0b лежит внутри допустимого интервала

5.00 £b£ .Второй показатель качества основан на прямом разбиении выборки на

две части:x y i M x y i Mi i n i i n, , , , ,Î Î

1 2.

По одной из них (объема n1) строится оценка регрессии, по второй

(объема n2 ) – показатель качества:

Рисунок 6.1

b

nI1

1

2

0 0.5 1.0

Page 48: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

48

( )10

2

23 min)(1

212 £b£Î

=h-= ånMl

lnin xyn

I

åÎ

÷øö

çèæ

D-

=1

1)(

nMii

iNn yxxKx bh .

При наличии одного входа разбиение на множества M Mn n1 2, можно

выполнить сравнительно легко. Надо упорядочить выборку x y i ni i, , ,= 1 по

x , т. е. сделать в выборке все 1+< ii xx . Затем выборочные точки с нечетныминомерами отнести к первой группе, с четными номерами – ко второй группе.После настройки параметра b оценка регрессии )(xnh (при дальнейшем еёиспользовании) строится по всей выборке.

Для поиска параметра b в одномерном случае хорошо подходят: методделения отрезка пополам и метод золотого сечения (см. раздел 6 учебногопособия). Алгоритмы просты в реализации, имеют высокую скоростьсходимости, не требуют дифференцирования функции качества и хорошоописаны во всех учебниках по методам оптимизации.

Если оценка )(xnh для одного и того же канала вход-выходприменяется многократно с изменением объема n выборки, то можно прификсированном n рассчитать b , затем пересчитать постоянный для этого

объекта параметр c и получать оценку )(xnh по вышеприведённой формуле

(при 5/1)( -= cnnh ) для других значений n .Блок-схема последовательности выполнения операций при построении

непараметрической оценки регрессии приведена на рис. 6.2. Там жеприведены варьируемые переменные, которые помогут Вам при составленииплана исследований.

Page 49: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

49

Объект

Расчёт показателя близости непараметрической оценкирегрессии и сигнальной части выхода объекта

hxy +j= )(Генерированиезначений входного

воздействия

База экспериментальных данных входов и выходовобъекта

Исследователь может менять вид входноговоздействия, виды ядер, критерии оптимальности и

алгоритмы оптимизациипри подстроке коэффициента размытости, а такжесигнальную часть и помеху (при имитации объекта)Рисунок 6.2. Блок-схема последовательности выполнения

операцийпри построении и исследовании непараметрической оценки

Задание вида ядра непараметрической оценкирегрессии, критерия оптимальности и алгоритма

оптимизации

Расчёт коэффициента размытости ядранепараметрической оценки регрессии

6.3 Исследование непараметрической оценки инверсной регрессии

Цель работы: исследование свойств непараметрической оценкиинверсной регрессии.

dxyxfxyXM )|(}|{ ò¥

¥-

=

Page 50: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

50

Далее в тех же условиях и по той же схеме как описано в пункте 6.2 дляпрямой регрессии выполните исследование для инверсной регрессии.

6.4 Исследование правила классификации в распознавании образовс использованием непараметрической реализации байесовского подхода

При тех же условиях, что описаны в пункте 4.1, считая, что функцииплотности неизвестны реализуйте и исследуйте непараметрическуюреализацию байесовского подхода:

При байесовском подходе к принятию решений решающая функцияимеет вид:

)2()2|()1()1|()( PxfPxfx -=h

По обучающей выборке находим непараметрические оценки условныхплотностей )1|(xf и априорных вероятностей )1(P :

5/1,11)|(ˆ -

Î

=÷øö

çèæ -

= å cnhh

xxKhn

lxflnIi

i

l, 2,1,)(ˆ == l

nnlP l .

Получаем непараметрическую оценку решающей функции:

=÷øö

çèæ -

-÷øö

çèæ -

=h ååÎÎ n

nh

xxKhnn

nh

xxKhn

xnn Ii

i

Ii

in

2

2

1

1 21

1111)()

i

n

i

i yh

xxKhnå= ÷

øö

çèæ -

=1

11

Как видно из структуры обучающего правила можно (и нужно)подобрать оптимальные ядра и коэффициенты размытости для обеспеченияминимума ошибки классификации.

При минимизации оценки вероятности ошибки по параметрам cкоэффициентов размытости h надо учесть, что зависимость ).о( шPn¢ от cразрывная. Для оптимизации необходимо использовать квазиградиентныеалгоритмы, в которых вместо градиентов от nP ¢ по c используются их оценки(квазиградиенты). Можно применить метод глобальной оптимизации,описанный в главе 5 учебного пособия.

Полученный классификатор необходимо исследовать на зависимостьот:

Page 51: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

51

1. Объема обучающей выборки.2. Априорных вероятностей классов.3. Типов ядер.4. Коэффициентов размытости ядер.По результатам тестирования построить необходимые графики.

Если ранее выполнялась работа из пункта 4.1, то произвести сравнениепараметрического и непараметрического подходов, проиллюстрировавповедением при одних и тех же начальных условиях.

Page 52: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

52

7. ДИСПЕРСИОННЫЙ АНАЛИЗ

7.1 Исследование алгоритма однофакторного дисперсионногоанализа

Цель работы: реализовать алгоритм однофакторного дисперсионногоанализа и исследовать его свойства при различных видах связи междуслучайной величиной и влияющим на неё фактором, а также при различныхраспределениях помех и их интенсивностях.

Варьирование связи между случайной величиной и влияющим на неёфактором осуществляется за счёт имитации этой связи. Случайная величинапри этом равна сумме некоторой функции от неслучайной переменной(называемого в дисперсионном анализе «фактором») u , которая можетпринимать несколько заранее заданных значений kuu ,,1 K (это и есть «уровнифактора») и случайной помехи h , интенсивность которой (по отношению усигнальной части – функции от неслучайной величины) определяет уровеньстохастичности рассматриваемой случайной величины x .

Для каждого фиксированного значения iu входа объекта производитсяn измерений ini xx ,,1 K выхода объекта (случайной величины x ). Получаемаябаза экспериментальных данных (фиксированных значений входа иизмерений выхода объекта для каждого значения входа) представлена в видетаблицы 7.1.

Таблица 7.1Номер

наблюденияУровни фактора u

1u 2u … iu … ku1 11x 21x … 1ix … 1kx2 12x 22x … 2ix … 2kxM M M … M … Mj jx1 jx2 … ijx … kjxM M M … M … Mn nx1 nx2 … inx … knxS 1X 2X … iX … kX

Здесь kixXn

jiji ,1,

1å=

== .

На рисунке 7.1 изображена блок-схема последовательности выполненияопераций при однофакторном дисперсионном анализе.

Page 53: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

53

Объект

Проверка гипотез о равенстве дисперсий

hux +j= )(Выбор значений

фактора u

Создание базы экспериментальных данных: фиксированныхзначений входа и измерений выхода объекта для каждого

значения входа (см. таблицу 7.1)

Исследователь может менять значения входного воздействияи их количество, количество измерений выхода объекта; вид

сигнальной части, интенсивность помехи и закон еёраспределения (при имитации объекта)

Расчёт оценок дисперсий

kuu ,,1 Ku

Влияние фактора uпризнается незначимым

Влияние фактора uпризнается значимым

Рисунок 7.1. Блок-схема последовательности выполнения операцийпри однофакторном дисперсионном анализе

Обработка экспериментальных данных ведётся по нижеприведённымформулам. Оценки дисперсий, характеризующих изменение данных (постолбцам таблицы) для x на фиксированных уровнях kuu ...,,1 (по строкамтаблицы), имеем:

kixn

xn

xxn

Sn

j

n

j

n

jijijiiji ,1,1

11)(

11

1 1

2

1

222 =úúû

ù

êêë

é÷÷ø

öççè

æ-

-=-

-= å å å

= = =.

Page 54: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

54

Из предпосылок дисперсионного анализа следует, что должно иметь

место равенство 222

21 ... ks==s=s (гипотеза о равноточности измерений

выхода объекта). Эта гипотеза проверяется с использованием статистикиКочрена по однопороговому решающему правилу. Если значение статистикиКочрена меньше порога (выбираемого из таблиц при заданном уровнезначимости a , и степенях свободы k и 1-n , то основная гипотезапринимается.

При выполнении указанной гипотезы находят оценку дисперсии 20s ,

характеризующей рассеяние рассматриваемой случайной величины x вневлияния фактора u , по формуле

å åå= = =

=--

==k

i

k

i

n

jiiji xx

nkS

kS

1 1 1

2220 )(

)1(11

úúû

ù

êêë

é÷÷ø

öççè

æ-

-= åå å å

= = = =

k

i

n

j

k

i

n

jijij x

nx

nk 1 1 1

2

1

2 1)1(

1.

Оценки 2iS имеют )1( -n степеней свободы, а оценка 2

0S – )1( -nkстепеней свободы.

Оценка 2S выборочной дисперсии 2s с использованием всехнаблюдений равна

åå= =

--

=k

i

n

jij xx

knS

1 1

22 )(1

1,

где å=

=k

iix

kx

1

1; å

==

n

jiji x

nx

1

1.

Известные преобразования приводят к формуле

úúû

ù

êêë

é÷÷ø

öççè

æ-

-= åå åå

= = = =

k

i

n

j

k

i

n

jijij x

knx

knS

1 1

2

1 1

22 11

1 .

Вводится также оценка 2uS дисперсии 2

As , характеризующей изменение

математических ожиданий im , связанное с влиянием фактора u :

Page 55: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

55

å=

--

=k

iiu xx

knS

1

22 )(1

.

Очевидно, что оценка 2uS имеет )1( -k степеней свободы.

Проверка влияния фактора A на изменение математических ожиданий

,,1, kimi = может быть сведена к сравнению дисперсий 2us и 2

0s , оценками

которых являются соответственно 2uS и 2

0S . Влияние фактора u признается

значимым, если значимо отношение 20

2

SSu . Отношение 2

0

2

SSu признается

значимым с доверительной вероятностью a , если

)]1(;1[20

2

--> a nkkFSSu ,

где ),( 21 nnaF – a–квантиль F распределения с 1n и 2n степенями свободы.Для его нахождения используются таблицы П4 приложения учебногопособия.

Если влияние фактора u признается незначимым (т.е., когда

),( 2120

2

nn£ aFSSu ), то для оценки дисперсии 2

0s может быть использована

более точная оценка 2S , имеющая )1( -kn степеней свободы, против )1( -nk

для 20S .Итоговая схема вычислений следующая. Вычисляют суммы

åå= =

=k

i

n

jijxQ

1 1

21 ; å

==

k

iiX

nQ

1

22

1;

2

13

1÷øö

çèæ= å

=

k

iiX

knQ .

и находят

)1(212

0 --

=nk

QQS ;1

322

--

=k

QQSu .

Сравниваем 2uS и 2

0S и устанавливаем наличие влияния фактора u .

Page 56: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

56

Если )]1(;1[1

)1(

21

32 -->--

--

a nkkFQQQQ

knk

, то влияние фактора u

признается значимым. В ином случае всю выборку наблюдений можно

считать однородной с общей дисперсией1

312

--

=kn

QQS .

Однофакторный дисперсионный анализ и сравнение несколькихматематических ожиданий являются различными приемами решения одной итой же задачи. Если на различных уровнях фактора u проводятся различныеколичества наблюдений, формулы дисперсионного анализа имеют вид ( in –

число экспериментов на уровне iu , å=

=k

iinN

1):

åå= =

=k

i

n

jij

ixQ

1 1

21 ; å

==

k

i i

i

nXQ

1

2

2 ;2

13

1÷øö

çèæ= å

=

k

iiX

NQ ;

kNQQS--

= 2120 ;

1322

--

=k

QQSu .

Отношение 20

2

SSu сравнивается с );1( kNkF --a . Если

]N;1[20

2

kkFSSu --> a , то влияние фактора u признается значимым, и

наоборот.За счёт изменения свойств объекта при его имитации (см. рисунок 7.2)

можно испытать работоспособность алгоритма однофакторногодисперсионного анализа применительно к «различным объектам».

Вам остаётся наметить и реализовать план исследований.

Page 57: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

57

Задаётся видраспределения

аддитивнойпомехи h и её

интенсивность поотношению к

сигнальной частиauu =j )(

Задаётся видсигнальной

части,например,

Формируется выход объекта в каждой конкретной точкеплана ui, например, xij = aui + hj , j = 1, …, n,

и в итоге получается таблица данных

Исследователь меняет количество k значений фактора u, самизначения, вид сигнальной части и её параметры, вид

распределения аддитивной помехи и её интенсивность

Имитация объекта

Задаютсязначенияu1, …, uk

фактора u

Рисунок 7.2. Блок-схема последовательности выполнения операций приимитации объекта.

Задание для лабораторной работы: выберите объект для имитации,реализуйте процедуру имитации. Реализуйте процедуру однофакторногодисперсионного анализа. Протестируйте реализованный метод с разныминаборами входных параметров.

7.2 Исследование алгоритма двухфакторного дисперсионногоанализа

Цель работы: реализовать алгоритм двухфакторного дисперсионногоанализа и исследовать его свойства при различных видах связи междуинтересующей нас случайной величиной x и влияющими на неё двумявходными детерминированными переменными 21, uu (их в теориидисперсионного анализа часто называют факторами A и B ), а также приразличных распределениях случайных помех и их интенсивностях.

Page 58: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

58

За счёт имитации взаимосвязи между случайной величиной x ивлияющими на неё двумя факторами 21, uu (с использованием случайнойпомехи) можно целенаправленно менять силу этой взаимосвязи и уровеньстохастичности случайной величины x . При всех этих изменениях степенивлияния факторов на случайную величину удается испытатьработоспособность алгоритма двухфакторного дисперсионного анализа.

При имитации объекта случайную величину x проще всегопредставить в виде суммы некоторой функции от неслучайных переменных(факторов) 21, uu , которые могут принимать несколько заранее заданных

значений kuu 111 ,,K , muu 221 ,,K (это и есть «уровни факторов») и случайнойпомехи h , интенсивность которой (по отношению у сигнальной части –функции от неслучайной величины) определяет уровень стохастичностирассматриваемой случайной величины x : huux +j= ),( 21

Для каждого фиксированного значения первого iu1 и второго ju1 входа

объекта производится одно измерение ijx (или несколько измерений

ijnij xx ,,1 K ) выхода объекта (случайной величины x ). Получаемая база

экспериментальных данных представлена в виде таблицы 7.2 (при одномизмерении выхода объекта в каждой клетке таблицы).

Таблица 7.2

2u 1uS

11u 12u … iu1 … ku1

21u 11x 21x … 1ix … 1kx 1X ¢

22u 12x 22x … 2ix … 2kx 2X ¢. . . … . … . .. . . … . … . .. . . … . … . .

ju2 jx1 jx2 … ijx … kjx jX ¢

. . . … . … . .

. . . … . … . .

. . . … . … . .mu2 m

x1 m

x2 … im

x … kmx mX ¢

S 1X

2X … i

X … kX

Page 59: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

59

Здесь åå==

=¢=k

iijj

m

jiji xXxX

11, .

На рисунке 7.3 изображена блок-схема последовательности выполненияопераций при двухфакторном дисперсионном анализе. Идея, конечно,сохраняется по сравнению с предыдущим более простым однофакторнымвариантом.

Обработка экспериментальных данных ведётся по нижеприведённымформулам.

Вычисляются суммы

åå= =

=k

i

m

jijxQ

1 1

21 ; å

==

k

iiX

mQ

1

22

1 ; å=

¢=m

jjX

kQ

1

23

1;

2

1

2

14

11÷÷ø

öççè

æ¢=÷

øö

çèæ= åå

==

m

jj

k

ii X

mkX

mkQ .

Далее находятся оценки дисперсий

)1)(1(32412

0 ----+

=mk

QQQQS ;1

4221 -

-=

kQQSu ;

1432

2 --

=m

QQSu .

Если ),( 2120

21 nn> aF

S

Su , где 11 -=n k и )1)(1(2 --=n mk , то влияние

фактора 1u с уровнем значимости a (или с доверительной вероятностьюa-= 1p ) признается значимым.

Аналогично значимым признается влияние фактора 2u , если

),( 2120

22 nn> aF

S

Su , где 11 -=n m и )1)(1(2 --=n mk .

Page 60: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

60

Объект

Проверка гипотез о равенстве дисперсий

huux +j= ),( 21Выбор значений

факторов u1 , u2

Создание базы экспериментальных данных: фиксированныхзначений входов и измерений выхода объекта для каждой

пары значений входов (см. таблицу 7.2)

Исследователь может менять значения входных воздействийи их количество, количество измерений выхода объекта; вид

сигнальной части, интенсивность помехи и закон еёраспределения (при имитации объекта)

Расчёт оценок дисперсий

mk uuuu 221111 ,,;,, KK1u

Влияние факторов u1 , u2признается незначимым

Влияние факторов u1 , u2признается значимым

2u

Рисунок 7.3. Блок-схема последовательности выполнения операцийпри двухфакторном дисперсионном анализе

Приведенный анализ предполагает независимость факторов 1u и 2u .

Если они зависимы, то взаимодействие факторов 213 uuu = также являетсяфактором, которому соответствует своя дисперсия. Для того, чтобы выделитьтакое взаимодействие, необходимы параллельные наблюдения в каждойклетке таблицы, т.е. при каждом сочетании факторов 1u и 2u на уровнях iu1 и

ju2 соответственно необходимо не одно наблюдение, а серия n наблюдений

Page 61: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

61

ijnijij xxx ,...,, 21 . В предыдущих формулах расчёта ijx теперь является средним

из n наблюдений, т.е. å=n

vijvij x

nx .1

Для оценки влияния взаимодействия

факторов 213 uuu = вычисляем дополнительную сумму

ååå= = =

=k

i

m

j

n

vijvxQ

1 1 1

25 .

Далее анализ проводится, как и ранее, с той лишь разницей, что вклетках таблицы вместо отдельных значений ijvx используется их средние

значения ijx .

Вычисляется оценка дисперсии

)1(152

3 --

=nmknQQSu ,

и проверяется значимость взаимодействия факторов 3u критерием

),( 212

20

3

nn> aFSnS

u

, где )1)(1(1 --=n mk и )1(2 -=n nmk .

С добавлением каждого нового фактора принципиальная основадисперсионного анализа не изменяется, но существенно усложняютсяформулы и таблицы для расчетов. Изложение практических методов(планирования эксперимента и использованием латинских квадратов)дисперсионного анализа для случая трех, четыре и более факторовсодержится в учебном пособии.

Page 62: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

62

Задаётся видраспределения

аддитивнойпомехи h и её

интенсивность поотношению к

сигнальной части2211

21 ),(

uaua

uu

+=

=j

Задаётся видсигнальной

части,например,

Формируется выход объекта в каждой конкретной точкеплана u1i, u2j, например, xij = a1u1i + a2u2j + hij ,

и в итоге получается таблица данных

Исследователь меняет количество значений факторов u1, u2,сами значения, вид сигнальной части и её параметры, вид

распределения аддитивной помехи и её интенсивность

Имитация объекта

Задаютсязначения

u11, …, u1k,u21, …, u2m

факторов u1, u2

Рисунок 7.4. Блок-схема последовательности выполнения операцийпри имитации объекта

За счёт изменения (при имитации) свойств взаимосвязи выхода ивходов объекта (см. рисунок 7.4) можно испытать работоспособностьалгоритма двухфакторного дисперсионного анализа в различных условиях.

Вам необходимо составить и реализовать план исследований.

Page 63: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

63

8. АНАЛИЗ ТРЕНДОВ И ВРЕМЕННЫХ РЯДОВ

8.1 ВведениеВременные ряды отличаются от данных об одном временном срезе в

том отношении, что в случае временных рядов сама последовательностьнаблюдений несет в себе важную информацию. В частности, чтобыохарактеризовать какую-либо совокупность данных в целом, вам уженедостаточно знать лишь типичное значение этих данных (например, среднеезначение) или даже изменчивость этой совокупности данных (описываемую,например, стандартным отклонением). В этом случае желательно знать, что,скорее всего, произойдет дальше. Подобный прогноз должен по возможноститочнее экстраполировать ближайшее поведение системы с точки зрениямоделей поведения этой системы в прошлом.

Главная цель анализа временных рядов заключается в прогнозированиибудущего. Для описания временных рядов требуется определенная модель.Модель (ее еще называют математической моделью, или процессом)представляет собой систему уравнений, которая позволяет получить некийнабор искусственных данных в форме временных рядов.

Ниже описана процедура, связанная с прогнозированием.1. Выберите семейство моделей временных рядов.2. Оцените конкретную модель (в рамках выбранного вами семейства),

которая позволяет получить искусственные данные, отвечающие важнейшимхарактеристикам (но не каким-то аномалиям и исключениям) анализируемоговременного ряда.

3. Ваш прогноз будет представлять собой ожидаемое (т.е. среднее)значение будущего поведения модели, для которой сделана оценка. Обратитевнимание, что вы можете прогнозировать будущее для той или инойматематической модели с помощью компьютера, хотя будущееанализируемого ряда не известно.

4. Границами прогноза являются доверительные интервалы для вашегопрогноза (если данная модель позволяет определять их); если используемаявами модель корректна, то будущее наблюдение с вероятностью, например,95% попадет в эти границы. Границы прогноза вычисляются обычным

Page 64: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

64

способом на основании стандартной ошибки, которая представляетизменчивость будущего поведения оцениваемой модели.

8.2 Анализ трендов и сезонности

Анализ трендов и сезонности представляет собой непосредственный,интуитивный подход к оцениванию четырех базовых компонентовпомесячных или поквартальных временных рядов: долгосрочный тренд(тенденция), сезонность, циклическая вариация и нерегулярный компонент.Базовая модель временного ряда представляет числа в этом ряде в видепроизведения, получаемого путем умножения перечисленных компонентов.

остьНерегулярньЦикличностСезонностьТренд=Данные ´´´ (8.1)

Ниже приведены определения этих четырех базовых компонентов.1. Долгосрочный тренд (тенденция) указывает действительно

долгосрочное поведение временного ряда - как правило, в виде прямой линииили экспоненциальной кривой. Это бывает полезно в случае, если требуетсяувидеть картину в целом.

2. Точно повторяющийся сезонный компонент определяет влияниевремени года. Например, потребность в устройствах обогрева высока взимние месяцы, соответствующие объемы продаж высоки в декабре, аобъемы продаж сельскохозяйственной продукции высоки в период сбораурожая. Каждый период времени в течение года характеризуется своимсезонным индексом, который свидетельствует о том, насколько выше илиниже соответствующий показатель в данный период времени по сравнению сдругими периодами.

З. Среднесрочный циклический компонент состоит изпоследовательных повышений и понижений, которые не повторяютсякаждый год и поэтому исключаются из сезонного компонента. Поскольку этиповышения и понижения чередуются, их нельзя считать достаточнослучайными и рассматривать как часть независимой случайной ошибки(нерегулярного компонента). Циклическую вариацию особенно труднопрогнозировать за пределами ближайшего будущего. Тем не менее, онаможет быть очень важна, поскольку основные явления экономического цикла(такие как экономический спад) рассматриваются как часть циклическойвариации в экономических показателях.

Page 65: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

65

4. Краткосрочный нерегулярный (случайный) компонент представляетостаточную вариацию, которую невозможно объяснить. В нем проявляетсядействие тех однократных событий, которые происходят с течением временислучайно, а не систематически. Самое большее, что можно сделать с этимнерегулярным компонентом, оценить его величину (воспользовавшись,например, стандартным отклонением), определить, меняется ли он с течениемвремени, и признать, что даже в идеальных условиях прогноз не может бытьточнее (в среднем), чем типичная величина нерегулярной вариации.

8.3. Использование «Statgraphics 5.0» для анализа временных рядовПервый этап. Ввод данных. Запустите Statgraphics и введите данные

которые вы собираетесь анализировать. Пример ввода данных представлен нарисунке 6.1.

Рисунок 6.1. Пример ввода данных об объемах продаж.

Второй этап. Выберите необходимый анализ из представленных впакете (см. рисунок 6.2.)

Page 66: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

66

Рисунок 6.2. Меню для выбора методов анализа временных рядов.Как видно из рисунка 6.2. пакет «Statgraphics 5.0» имеет 5 методов для

анализа временных рядов: Descriptive Methods (описательные методы),Smoothing (сглаживание), Seasonal Decomposition (выделение сезонногоиндекса), Forecasting (прогнозирование) и Automatic Forecasting(автоматическое прогнозирование).

Все эти методы достаточно просты для освоения так как имеютодинаковый интерфейс. Рассмотрим один из них – Forecasting(прогнозирование) (все остальные можно освоить по аналогии).

Выберите в главном меню указанный пункт. Появится диалог длянастройки свойств метода. Свойства задаются экспертно, в данном примеребыли использованы следующие настройки:

Рисунок 6.3. Настройки для выполнения прогнозирования.

Page 67: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

67

После ввода настроек откроется окно с результатами анализа нашеговременного ряда:

Рисунок 6.4. Окно анализа временного ряда.На рисунке 6.4. представлено только два из доступных семи анализов и

два из доступных семи графиков. Вам необходимо изучить все семь анализови все семь графиков. Внимательно прочитать и перевести выданные пакетомрекомендации (StatAdvisor). Сделать на основе этих данных нужные выводы.

Задание для самостоятельного выполнения:Используя возможности программных пакетов (Statgraphics,

STATISTICA и др.) произведите анализ данных. Постройте необходимыеобъясняющие графики. Рассчитайте уравнение тренда и сезонные индексы, атакже оцените нерегулярный компонент.

Задание 1.Выберите какую-либо фирму и получите данные с поквартальных

объемах продаж этой фирмы по крайней мере за три последовательных года(для этого можно воспользоваться ежегодными отчетами фирмы, которыеможно получить в библиотеке или через Internet).

Page 68: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

68

а) Изобразите график временного ряда и прокомментируйте структуру,которая следует из этого графика.

б) Вычислите скользящее среднее за год, отобразите его на своемграфике и прокомментируйте.

в) Вычислит.е сезонные индексы, отобразите их на своем графике ипрокомментируйте.

г) Вычислите и отобразите на своем графике временили ряд споправкой на сезон, затем прокомментируйте полученный результат, Вчастности, ответьте на вопрос: какую новую информацию можно извлечь врезультате внесения сезонной поправки?

д) Вычислите линию тренда и внесите в нее сезонную поправку, чтобыполучить прогнозы на два последующих года. Отобразите эти прогнозы насвоем графике наряду с исходными данными. Прокомментируйте, насколькоправдоподобными кажутся вам эти прогнозы.

Задание 2.Подберите ежегодные (как минимум за 20 последовательных лет – в

виде временного ряда) данные экономического характера, представляющиедля вас интерес. (Реализация этого задания связана с доступом ккомпьютерному программному обеспечению, которое позволяетобрабатывать временные ряды).

а) Представьте этот и ременной ряд в графическом виде ипрокомментируйте структуру, которая следует из полученного графика.

б) Процессу какого типа соответствует исследуемый ряд –стационарному или нестационарному? Если он относится к числу крайненестационарным (например, заканчивается далеко от того значения, скоторого начинался), отобразите в графическом виде разности, чтобывыяснить, являются ли они стационарным процессом.

в) Примените к своему ряду (или к соответствующим разностям, еслиряд оказался нестационарным) процесс авторегрессии первого порядка.Является ли коэффициент авторегрессии статистически значимым, еслиисходить из t-статистики?

г) Оцените соответствие своего ряда (или соответствующих разностей,если ряд оказался нестационарным) процессу скользящего среднего первогопорядка. Является ли коэффициент скользящего среднего статистическизначимым, если исходить из t- статистики?

Page 69: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

69

д) Оцените соответствие своего ряда (или соответствующих разностей,если ряд оказался нестационарным) ARMA-процессу первого порядка. Какиекоэффициенты являются статистически значимыми, если исходить из t-статистики?

е) Основываясь на результатах применения трех перечисленныхмоделей укажите ту модель, которой вы отдали бы предпочтение. (Можноисключить те компоненты, которые не являются статистически значимыми.)

ж) Теперь можно вернуться к исходному ряду (даже если выпользовались разностями). Оцените выбранную вами модель — включивинтегрированный (И) компонент, если вы пользовались разностями, — иопределите прогнозы и границы прогнозов.

з) Представьте полученные вами прогнозы и границы прогнозов вграфическом виде наряду с исходными данными и прокомментируйтерезультат,

и) Прокомментируйте процедуру выбора модели. (Помните, чтопроцедура выбора модели намного усложняется при использованиипроцессов более высокого порядка.)

Page 70: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

70

9. ИДЕНТИФИКАЦИЯ СТАТИЧЕСКИХ МОДЕЛЕЙОБЪЕКТОВ

9.1 Исследование алгоритма наименьших квадратов при линейнойпараметризации модели

Цель работы: исследование свойств алгоритма расчета параметровоснованного на методе наименьших квадратов при линейной параметризациимодели.

Входные параметры: структура линейного объекта, свойства помехиприложенной к выходу объекта (нормально распределенная величина снулевым математическим ожиданием и некоторой дисперсией помехи).

Модель объекта задана в виде линейной комбинации известных(базисных) функций )(...,),(1 uu mjj :

å=

ja=aj=aj=ahm

j

TTjj uuuu

1)()()(),( ,

÷÷÷

ø

ö

ççç

è

æ

j

j=j

÷÷÷

ø

ö

ççç

è

æ

a

a=a

)(

)()(,

11

u

uu

mm

KK .

Вектор-столбец значений выхода модели (в моменты времениni ,,1K= ) имеет вид:

aF=a÷÷÷

ø

ö

ççç

è

æ

jjj

jjj=a

÷÷÷

ø

ö

ççç

è

æ

j

j=

÷÷÷

ø

ö

ççç

è

æ

aj

aj=a

)()()(

)()()(

)(

)(

)(

)()(

21

1121111

nmnn

m

nT

T

nT

T

uuu

uuu

u

u

u

uH

K

K

K

KK .

Параметры a находим по критерию наименьших квадратов

a

-- =aF-aF-=a min)()()( *1* HKHI T

Необходимое условие минимума Ñ =I 0 (где ÑI – градиент от )(aIпо a ) приводит к системе линейных алгебраических уравнений:

*11 HKK TT -- F=aFF ,

которая имеет единственное решение, если матрица F FT K -1

невырождена. Эта матрица вырождается, если: 1) либо базисные функции

Page 71: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

71

линейно зависимы, 2) либо число изменений n меньше числа m искомыхпараметров (n m< ), 3) либо измерения не информативны. Запишем теперьрешение системы:

*0

*111 )( HNHKK TT =FFF=a ---

Для частного случая, когда помеха x некоррелирована и измеренияравноточные и при использовании понятия скалярного произведенияфункций:

å=

- jjs=jjn

iikilkl uu

1

2 )()(),( , å=

- hjs=hjn

iiill u

1

*2* )(),( .

Получаем систему:

÷÷÷

ø

ö

ççç

è

æ

hj

hj=

÷÷÷

ø

ö

ççç

è

æ

a

a

÷÷÷

ø

ö

ççç

è

æ

jjjj

jjjj

),(

),(

),(),(

),(),(

*

*11

1

111

mmmmm

m

KK

K

K

K

Если измерения выхода объекта некоррелированы, но неравноточны, тосистема сохраняет свой вид. Меняется лишь понятие скалярногопроизведения (в него вводятся веса nii ,1,2 =s- ):

å=

- jsj=jjn

iikiilkl uu

1

2 )()(),( , å=

- hsj=hjn

iiiill u

1

*2* )(),( .

Далее рассчитываем параметры модели, решая полученную системууравнений, которая зачастую распадается на m независимых уравнений.

Набор моделей для реализации в рамках лабораторной работы:1. a=ah ),(u

2. å=

-=-a+a=ahn

iiunuuuu

1

121 ),(),(

3. 22121),( uuu a+a+a=ah

4. )()(),( 222111*

21 uuuuuu -a+-a+h=h

где ååå å== = =

==h=hm

jj

n

i

m

j

n

iiij u

muu

nu

nm 122

1 1 111

* 1,1,1.

5. Разработать две линейные модели по тому же принципу что и вышеприведенные самостоятельно.

Page 72: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

72

При расчете параметров модели реализовать два вариант генерациипомехи: равноточный и не равноточный случаи.

Для визуализации полученных результатов можно выводить графикипримерно следующего вида (как показано на рисунке 9.1):

u

h

*h

u

)(),( 21 uuu -a+a=ah

),(),( ah+ah uDcu

),(),( ah-ah uDcu

1u

*1h

Рисунок 9.1. Сглаживание экспериментальных данных.

9.2 Исследование простейшего алгоритма адаптивнойидентификации параметров статических (линейных и нелинейныхотносительно параметров) моделей объектов

Цель работы: исследование свойств простейшего алгоритма адаптивнойперестройки параметров статических (линейных и нелинейных относительнопараметров) моделей объектов.

Рассматриваемый алгоритм относится к самым первым применяемым вадаптации алгоритмам. В силу его предельной простоты и часто неплохихсвойств его применяют и в настоящее время либо в первозданном виде, либос небольшими модификациями.

На каждом n –м шаге, когда поступили новые измерения входа ивыхода объекта ( nnu h, ), параметры модели (вектор-столбец) aкорректируются по соответствующему алгоритму, и полученные значенияобозначаем через na .

При линейной параметризации модели ( aj=ah )(),( uu T ) наитерациях с номерами n и n -1 параметры модели вычисляются из условияравенства выходов модели и объекта:

Page 73: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

73

nnT

n u aj=h )(* ,

11*

1 )( --- aj=h nnT

n u .Первое уравнение запишем через приращение параметров на соседних

итерациях:

nnT

nnT

nnnT

nnT

n uuuu aDj+aj=a-aj+aj=h --- )()())(()( 111* .

Из этого уравнения отыскиваем приращения параметров naD , наложивна них ограничение (минимум квадрата нормы приращения)

min|||| 2=aD n

Иллюстрация этого алгоритма вычисленияприращения naD приведена на рис. 9.2. Точка naвыбирается из условия минимума расстояния от

1-an . Правая линия соответствует уравнению

11*

1 )( --- aj=h nnT

n u при a=a -1n , а левая –

уравнению nnT

n u aj=h )(* также при a=an .Алгебраический вид этого алгоритма (с использованием операции

псевдообращения матриц) имеет вид:

=jjj

aj-h+a=a -

- )()()(

))(( 1*

1 nnn

Tnn

Tn

nn uuu

u

K,2,1,))()()(( 1*

1 =jaj-h+a= +-- nuu n

Tnn

Tnn

Здесь знак "+" – псевдообращения (обобщенного обращения) матрицы.

Если помеха измерения x отсутствует, то aunT

n )(* j=h и точкойпересечения прямых являются истинные параметры a объекта. Алгоритмосуществляет последовательное перемещение параметров модели к этойточке. Из рисунка 8.1 также видно, как можно многократно последовательноиспользовать две пары измерений входа и выхода объекта для перемещения кточке пересечения прямых.

Если есть аддитивная помеха, т. е. naunT

n x+j=h* )( , то из алгоритмаперестройки параметров следует, что

)()()( n

nnT

nnn u

uua j

jjx

+>--a¥®

.

2a

1a

na

1-an

n -1

n

aРисунок 9.2

Page 74: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

74

Дополнительная помеха в оценках параметров асимптотически неубывает и для ее нейтрализации необходимо применять дополнительносглаживание (последовательный пересчёт оценок математического ожидания)получаемых оценок naaa ,,, 21 K :

....,2,1),( 11

1 =a-a+a=a --

- nn nnnn

Усреднение можно провести с учетом экспоненциального забыванияинформации:

)()( 11

111

1-

--

=

-

=

-- a-ad+a=all=a åå nnnn

n

ii

inn

i

inn

...,,2,1,0,1 01 ==dld+=d - nnn

10 <l< , например, 995.09.0 £l£ ; или методом скользящего среднего:

)(ˆˆ 11

1

1knnn

n

kniin kk -

--

-+=

- a-a+a=a=a å , ...,,2,1 ++= kkn

k – количество усредняемых значений. Два последних алгоритм применяютпри подстройке дрейфующих параметров объекта.

Чувствительность к помехам можно уменьшить, применяя в алгоритмедополнительный положительный параметр g . Его вводят двумя способами:

K,2,1,0,)()()(

))(( 1*

1 =>gjjj

aj-hg+a=a -

- nuuu

un

nnT

nnT

nnn ;

K,2,1,0,)()()())(( 1

*

1 =>gjjj+g

aj-h+a=a -

- nuuu

un

nnT

nnT

nnn .

Второй способ часто оказывается более предпочтительным, ибопараметр g осуществляет дополнительно регуляризацию алгоритма, когда

)()( nnT uu jj приближается к нулю.

При нелинейной параметризации модели ),( ah u на каждом шагемодель линеаризуется и приращения параметров находится из равенствавыхода модели и линеаризованной модели

nnnT

nnn uu aDahÑ+ah=h -a- ),(),( 11*

с учетом того же критерия минимум квадрата нормы приращенияmin|||| 2=aD n .

Page 75: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

75

В итоге алгоритм перестройки параметров нелинейной моделиприобретает вид:

),(),(),(

)),((1

11

1*

1 -a-a-a

-- ahÑ

ahÑahÑah-h

+a=a nnnnnn

Tnnn

nn uuu

u, K,2,1=n .

При составлении плана исследований и при выполнении работы вампоможет блок-схема последовательности выполнения операций, приведённаяна рисунке 9.3.

Объект

Расчёт текущего показателя близости параметрическоймодели и сигнальной части выхода объекта

hauy +h= ),(Генерирование значений

входного воздействия

Текущие измерения входов и выходов объекта

Исследователь может менять вид входного воздействия,структуру модели, а также сигнальную часть (структуру и

параметры) и помеху (при имитации объекта)

Задание структуры модели

Расчёт текущих значений параметров линейных инелинейных (относительно параметров) моделей на основе

простейшего адаптивного алгоритма

Рисунок. 9.3. Блок-схема последовательности выполнения операцийпри адаптивной перестройке параметров статических моделей

Page 76: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

76

Задание для выполнения:Реализовать два имитируемых объекта: линейный и нелинейный.

Выполнить построение простейшего адаптивного алгоритма для этихобъектов. Произвести исследование свойств алгоритма при различныхуровнях помехи и различных способах сглаживания.

Page 77: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

77

ЗАКЛЮЧЕНИЕПредставленные в данном пособии лабораторные работы позволят

студентам получить опыт приближенный к реальным задачам, возникающимв реальной практике ученого, инженера или предпринимателя.

Сейчас очень необходимо заинтересовывать студентов в освоенииновых информационных технологий, так как вполне очевидно, что этинавыки им будут необходимы при дальнейшей самостоятельной работе. Тот,кто умеет анализировать данные на компьютере – уже много умеет в этойжизни!

Представленные в данном пособии лабораторные работы отражаютлишь малую часть тех задач, с которыми сегодняшним студентам завтрапридется столкнуться после окончания вуза. Невозможно объять необъятноев те короткие сроки, которые отводятся на изучение этой дисциплины ивыполнение лабораторных работ, но хочется пожелать студентам проявлятьбольше любознательности и самостоятельно расширять рамкипредставленных заданий, идти на шаг дальше, чем требует от васпреподаватель.

Среди возможных путей дальнейшего развития данного пособиявидится расширение разнообразия лабораторных работ, которые могут бытьвыполнены студентами. Это могут быть работы по визуальному анализуданных, корреляционному анализу, проверке гипотез, исследованию методовэкспериментальной оптимизации и т.д.

Еще одним интересным направлением может быть объединениестудентов в группы для выполнения лабораторных работ. Часть студентов изгруппы будет выполнять моделирование (имитацию) объекта, а вторая частьгруппы будет на основе этих данных реализовывать метод и проводить егоисследование. Такой подход приблизит лабораторную работу к реальнойзадаче, где исследователь ничего не знает о внутреннем устройстве объекта иработает с ним как с «черным ящиком».

Page 78: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

78

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Рубан, А. И. Методы анализа данных. Учебное пособие / А. И. Рубан,Уч. пособие. 2-е изд., исправл. и доп. Красноярск: ИПЦ КГТУ, 2004. 319 с.

2. Рубан, А. И. Методы оптимизации / А. И. Рубан, Уч. пособие. 3-еизд., испр. и доп. Красноярск: ИПЦ КГТУ, 2004. 528 с.

3. Гмурман, В. Е. Руководство к решению задач по теории вероятностейи математической статистике / В. Е. Гмурман, уч. пособие для студентоввузов. М.: Высш. школа, 2002. 400 с.

4. Кнут, Д. Э. Исскуство программироаня том 2. Получисленныеалгоритмы, 3-е изд. / Д. Э. Кнут, Пер. с англ. : Уч. пособие. – М.:Издательский дом «Вильямс», 2000. – 832 с.

5. Сигел, Э. Ф. Практическая бизнес статистика / Э. Ф. Сигел, Пер. сангл. – М.: Издательский дом «Вильямс», 2002. – 1056 с.

6. Боровиков В. STATISTICA. Искусство анализа данных накомпьютере: Для профессионалов. / В. Боровиков – Спб.: Питер, 2003. – 688с.: ил.

7. www.exponrnta.ru8. www.statsoft.ru

Page 79: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

79

ОГЛАВЛЕНИЕ

Введение ................................................................................................................31. Общие требования ...........................................................................................5

1.1. Требования по оформлению ........................................................................51.2. Требования к реализации ............................................................................61.3 Пример интерфейса пользователя ...............................................................71.4 Выдача и прием заданий...............................................................................7

2. Общая схема построения работы ..................................................................92.1. Общий метод генерации непрерывных распределений .............................92.2. Генерация чисел, по нормальному закону с использованием

центральной предельной теоремы ............................................................. 102.3. Генерация чисел по нормальному закону методом полярных координат

..................................................................................................................... 103. Знакомство с программным пакетом «STATGRAPHICS 5.0» для

обработки данных на примере исследования предельных теорем ........ 123. 1. Теорема Бернулли ..................................................................................... 12Задание для самостоятельного выполнения: ................................................... 153.2 Закон больших чисел в форме Чебышева.................................................. 16Задание для самостоятельного выполнения: ................................................... 203.3 Сжатие распределения с ростом числа слагаемых ................................... 20Задание для самостоятельного выполнения: ................................................... 223.4 Центральная предельная теорема .............................................................. 22Задание для самостоятельного выполнения: ................................................... 25

4 Классификация в распознавании образов .................................................. 264.1 Исследование байесовского правила классификации в распознавании

образов при непрерывных информативных признаках (условныеплотности известны с точностью до параметров) .................................... 26

4.2 Исследование байесовского правила классификации в распознаванииобразов при непрерывных информативных признаках (условныеплотности известны с точностью до параметров) и без обучающейвыборки. ...................................................................................................... 30

5. Планирование эксперимента ....................................................................... 325.1 Исследование алгоритмов построения степенных моделей с

использованием ортогональных планов первого и второго порядков .... 326. Методы непараметрической обработки информации ............................. 43

6.1 Исследование оценок "К ближайших соседей" и Розенблатта – Парзена ..................................................................................................................... 43

Page 80: Методы обработки экспериментальных данныхikit.edu.sfu-kras.ru/files/17/lab/lab.pdfсовременные математические пакеты

80

6.2 Исследование непараметрической оценки прямой регрессии ................. 446.3 Исследование непараметрической оценки инверсной регрессии ............ 496.4 Исследование правила классификации в распознавании образов с

использованием непараметрической реализации байесовского подхода507. Дисперсионный анализ ................................................................................. 52

7.1 Исследование алгоритма однофакторного дисперсионного анализа ...... 527.2 Исследование алгоритма двухфакторного дисперсионного анализа ....... 57

8. Анализ трендов и временных рядов ........................................................... 638.1 Введение ...................................................................................................... 638.2 Анализ трендов и сезонности ..................................................................... 648.3. Использование «Statgraphics 5.0» для анализа временных рядов ........... 65Задание для самостоятельного выполнения: ................................................... 67

9. Идентификация статических моделей объектов ...................................... 709.1 Исследование алгоритма наименьших квадратов при линейной

параметризации модели ............................................................................. 709.2 Исследование простейшего алгоритма адаптивной идентификации

параметров статических (линейных и нелинейных относительнопараметров) моделей объектов .................................................................. 72

Заключение ......................................................................................................... 77Библиографический список ............................................................................. 78Оглавление ......................................................................................................... 79