Научно-производственный центр

30

description

МГТУ им. Н.Э. Баумана. Научно-производственный центр. ИНТЕЛТЕК ПЛЮС. www.inteltec.ru. Тема доклада. Метод обнаружения изменений структуры веб-сайтов в системе сбора новостной информации. Задача сбора новостной информации. Задача обнаружения сбоев. Последствия изменения структуры веб-сайта: - PowerPoint PPT Presentation

Transcript of Научно-производственный центр

Page 1: Научно-производственный центр
Page 2: Научно-производственный центр

Тема доклада

Метод обнаружения изменений

структуры веб-сайтов в системе

сбора новостной информации

Page 3: Научно-производственный центр

Задача сбора новостной информации

XPath правила

Очищенный текст

Метаданные в XML форме

БД с текстами новостей

Результат сбораWeb-страница с

текстом

RSS-лента

Новостной Web-сайт

Система сбора

Статистика

Page 4: Научно-производственный центр

Задача обнаружения сбоев

Система сбора

Xpath правила

Администратор

Детектор сбоевИсточники

БД с текстами новостей

Сбоя нет

Произошел сбойПараметры

детектора

Последствия изменения структуры веб-сайта: Данные не извлекаются (проблема может быть обнаружена

самой системой сбора) Извлекаются некорректные данные (для обнаружения

проблемы необходима подсистема детектирования)

Page 5: Научно-производственный центр

Подходы к обнаружению сбоев

• Оперативное обнаружение• анализируется только одна веб-

страница

• Отложенное обнаружение• анализируется набор из

нескольких веб- страниц

Page 6: Научно-производственный центр

Анализ одной веб-страницы

+: скорость реакции на сбой

- : частые ложные срабатывания

Статистика

Система сбора

Правила

Администратор

Система обнаружения сбоевWeb-страница

с текстомКлассификатор БД с текстами

новостейСбоя нет

Произошел сбой

Page 7: Научно-производственный центр

Анализ набора веб-страниц

+: высокое качество проверки

- : задержка обнаружения сбоя

Система сбора

Правила

Администратор

Система обнаружения сбоев

Web-страница с текстом

Анализатор

БД с текстами новостей

Сбоя нет

Произошел сбой

Статистика

Эталон

Page 8: Научно-производственный центр

Двухступенчатый анализ веб-страниц

Статистика

Система сбора Оперативный детектор

Отложенный детектор

Правила

Администратор

Система обнаружения сбоев

Page 9: Научно-производственный центр

Модель документа

Характеристики документа:

, , , , , , , ,  H B S I OX P S N V T T T T T

P – объем веб-страницыS – суммарный размер параграфовN – количество параграфов в статьеV – дисперсия размера параграфа в рамках

статьи Класс html-элементов

Характеристика

H – гиперссылки TH

B – текстовые блоки TB

S – форматирование TS

I – изображения TI

O - прочее TO

Page 10: Научно-производственный центр

Модель набора документов 1

Характеристики, описывающие свойства текста:

1( ,.., )nmP P P 1( ,.., )n

mN N N 1( ,.., )nmS S S 1( ,.., )n

mV V V

21 logm n

, , ,  P S N V

Формула Стерджесса:

Области значений разбиваются на m интервалов равной длины

где , , , - частота попадания значений величин P, S, N, V в i-ый интервал

Page 11: Научно-производственный центр

Модель набора документов 2

Характеристики, описывающие свойства разметки:

( , , , , )nH B S I OT T T T T T

, , , ,  H B S I OT T T T T

1

ni

H Hi

T T

1

ni

B Bi

T T

1

  n

iS S

i

T T

1

ni

I Ii

T T

1

ni

O Oi

T T

Количество тэгов различных классов в наборе документов:

Модель набора документов:

( , , , , )n n n n n nX P S N V T

Page 12: Научно-производственный центр

Принципы оперативного детектирования 1

Методы бинарной классификации SVM Логистическая регрессия Наивный байесовский

классификатор

skv
Докладывать результаты обзора этих методов смысла нет, поскольку методы классификации - вещь известная. На мой взгляд, нужно говорить о том, что оперативный детектор представляет собой классификатор, который может быть построен на основе известных подходов, часть которых отражена на слайде. Сам слайд имеет смысл переименовать в "Принципы оперативного детектирования"
Илья
Этот слайд соответствует месту в статье, где говорится о несостоятельности перечисленных методов при отсутствии негативных примеров и предлагается построить работу классификатора на определении схожести анализируемого документа с эталонными (эта идея развивается на следующем слайде).
Page 13: Научно-производственный центр

Принципы оперативного детектирования 2

Распределение значений параметров N и P для kp.ru

подозрительные статьи

skv
Нет, полагаю, что здесь слушатель подводится к тому, что для построения классов мы будем использовать методы кластеризации. Название слайда предлагаю оставить текущее, т.к. фразу "предварительный экспериментальные исследования" никто читать не будет - слишком много несущественных слов.
Илья
Здесь демонструются плотные области точек и предлгается идея использования этих областей для определения корректности документов. О кластеризации речь всё же пойдёт несколько позже.
Page 14: Научно-производственный центр

Измененная модель документа

1 ( , , , , ) H B S I OY T T T T T

2 ,Y P S

Требования к векторам:

• небольшая размерность• отсутствие бесполезных векторов

Тэги:

Остальные параметры: 3 ,Y P N 4 ,Y P V

5 ,Y S N 6 ,Y S V 7  ,Y N V

Page 15: Научно-производственный центр

Основные требования к методу кластеризации

Небольшое количество кластеров

Гиперсферическая форма кластеров

Высокая плотность кластеров

Page 16: Научно-производственный центр

Методы кластеризации

Итерационные– Метод k-средних– EM-алгоритм

Иерархические– Метод одиночной связи– Метод полной связи– Метод средней связи

2Вычислительная сложность: ( )O n

skv
На мой взгляд, данный слайд нужно позиционировать как место выбранного метода кластеризации по отношению к другим методам. Выбор метода средней связи обоснован на предыдущих слайдах.
Илья
Здесь обосновывается выбор метода, который лёг в основу разработанного нами алгоритма (приведенного на следующем слайде). Вычислительная сложность приведена именно для него
Page 17: Научно-производственный центр

Предложенный алгоритм кластеризации

1. Выбрать из множества документов n элементов2. Произвести кластеризацию методом средней связи3. Найти центроиды полученных k кластеров4. Поместить центроиды в множество элементов5. Повторять пункты 1-4 до достижения нужного числа

элементов6. Определить принадлежность исходных элементов

кластерам

2Вычислительная сложность: ( )N k

O nn k

Максимальное быстродействие достигается при n=2*k

Page 18: Научно-производственный центр

Ограничивающие поверхности

• гиперпараллелепипеды• гиперэллипсоиды• гиперсферы

Page 19: Научно-производственный центр

Отложенный детектор

Анализ сходства тестовой и эталонной выборок

Эталонная (lenta.ru)

Тестовая (корректные

данные - lenta.ru)

Тестовая (некорректные

данные – cnews.ru)

3 выборки случайной величины S:

Page 20: Научно-производственный центр

Оценивание сходства выборок

Расстояние Кульбака-Лейблера (KLIC)

( ), ln

( )KLx

p xD p q p x

q x

M

Статистический ряд KLIC Критерий

0,    

1,    KL

KLKL

D K сбоянетf D

D K произошелсбой

Необходимо задать пороговое значение K:

Page 21: Научно-производственный центр

Пороговая функция 1

max :i

ij iKA

LK D A j

A

- расстояние Кульбака-Лейблера между и эталонной выборкой

A – множество наборов документов

b

ah x

x

Простая пороговая функция:

Page 22: Научно-производственный центр

Пороговая функция 2

7

0

ii

i

ah x

x

Универсальная пороговая функция:

Коэффициенты определяются методом наименьших квадратов

  0 0 max j j

ja a K h

Page 23: Научно-производственный центр

Функциональная схема системы детектирования

Блок самопроверки

Документы

Блок классификации

Блок переобучения

БД

БД

Блок отложенной проверки

Блок принятия решения

БД

Администратор

Оперативный детектор

Отложенный детектор

Page 24: Научно-производственный центр

Исходные данные для экспериментов

Источники данных:– mail.ru– itar-tass.com– kp.ru– rbc.ru– kommersant.ru– ria.ru– rambler.ru

Параметры детектора:– Пороговое значение при самопроверке: 10%– Количество кластеров, формируемых оперативным

детектором: 10 Эталонные данные:

– 72888 корректных документов Тестовые данные

– 5169 корректных документов– 356 некорректных документов

Илья
Пороговое значение выбрано исходя из объема анализируеых при самопроверке данных (равного числу документов, скачиваемых в рамках одной транзакции). Было выбрано максимльно строгое пороговое значение (его дальнейшее уменьшение лишало бы сам процесс самопроверки смысла).Значение для количества кластеров выбрано опытным путём.
Page 25: Научно-производственный центр

Эксперимент 1. Оперативный детектор

Ложные срабатывания оперативного детектора

ML - размер обучающей выборкиMT - размер тестовой выборкиMS - средний размер анализируемого набора документов при самопроверкеND - количество подозрительных статей NS - количество подозрительных статей после самопроверки

Источник ML MT MS ND NS

mail 25296 2631 20 14 0itar-tass 11548 560 76 0 0

kp 7220 218 24 4 1rbc 3517 227 25 14 5

kommersant 5288 260 47 4 0ria 16519 1115 29 12 5

rambler 3500 158 15 17 13Всего: 72888 5169 34 65 24

skv
Колонки Nd и Ns следует выделить красной рамкой, чтобы слушатели сразу поняли, куда им нужно смотреть. Строку "Всего" можно убрать", информация явно лишняя для слайда.
Илья
Может быть, строку "Всего" всё же оставить? Ведь приведенные в конце показатели качества работы детектора вычисляются именно на основе значений из этой строки. В противном случае станет непонятно, откуда взялись эти показатели.
Илья
Не очень понял про схему экспериментального макета. Что она из себя представляет? Ведь схема функционирования системы детектирования уже приведена, и исходные данные тоже...
Page 26: Научно-производственный центр

Эксперимент 1. Отложенный детектор

Ложные срабатывания отложенного детектораИсточник ML MT FP FS FN FV FT NF

mail 25296 2631 0 0 0 0 0 0 из 5itar-tass 11548 560 0 0 0 0 0 0 из 5

kp 7220 218 1 0 0 0 0 1 из 5rbc 3517 227 0 0 0 0 0 0 из 5

kommersant 5288 260 0 0 0 0 0 0 из 5ria 16519 1115 0 0 0 0 0 0 из 5

rambler 3500 158 0 0 0 0 0 0 из 5

Всего: 72888 5169 1 0 0 0 0 1 из 35

ML - размер обучающей выборкиMT - размер тестовой выборкиFP, FS, FN, FV, FT - значения критериевNF - количество критериев, показавших наличие сбоя

Page 27: Научно-производственный центр

Эксперимент 2. Оперативный детектор

Пропуск сбоев оперативным детектором

ML - размер обучающей выборкиMT - размер тестовой выборкиMS - средний размер анализируемого набора документов при самопроверкеND - количество подозрительных статей NS - количество подозрительных статей после самопроверки

Источник ML MT MS ND NS

mail 25296 356 25 356 356itar-tass 3500 356 25 356 356

kp 11548 356 25 356 356rbc 7220 356 25 356 356

kommersant 16519 356 25 356 356ria 3517 356 25 356 356

rambler 5288 356 25 356 356Всего: 72888 2492 25 2492 2492

Page 28: Научно-производственный центр

Эксперимент 2. Отложенный детектор

Пропуск сбоев отложенным детектором

ML - размер обучающей выборкиMT - размер тестовой выборкиFP, FS, FN, FV, FT - значения критериевNF - количество критериев, показавших наличие сбоя

Источник ML MT FP FS FN FV FT NF

mail 25296 356 1 1 1 0 0 3 из 5itar-tass 11548 356 1 1 1 0 0 3 из 5

kp 7220 356 1 0 1 0 1 3 из 5rbc 3517 356 1 1 1 0 1 4 из 5

kommersant

5288 356 1 1 1 1 1 5 из 5

ria 16519 356 1 0 1 1 1 4 из 5rambler 3500 356 1 1 1 1 1 5 из 5

Всего:72888 2492

7 5 7 3 5 27 из 35

Page 29: Научно-производственный центр

Основные результаты

Характеристики разработанного подхода к обнаружению сбоев: Двухступенчатый анализ Быстрая иерархическая кластеризация Сравнение выборок с помощью расстояния

Кульбака-Лейблера Использование пороговой функции

Качество работы оперативного детектора:• 99,54% на корректных данных• 100% на некорректных данных

Качество работы отложенного детектора:• 97,14% на корректных данных• 77,15% на некорректных данных

Page 30: Научно-производственный центр