Сергей Попов, Научно-производственный центр Специального машиностроения при МГТУ им. Баумана
Научно-производственный центр
-
Upload
cain-higgins -
Category
Documents
-
view
55 -
download
1
description
Transcript of Научно-производственный центр
Тема доклада
Метод обнаружения изменений
структуры веб-сайтов в системе
сбора новостной информации
Задача сбора новостной информации
XPath правила
Очищенный текст
Метаданные в XML форме
БД с текстами новостей
Результат сбораWeb-страница с
текстом
RSS-лента
Новостной Web-сайт
Система сбора
Статистика
Задача обнаружения сбоев
Система сбора
Xpath правила
Администратор
Детектор сбоевИсточники
БД с текстами новостей
Сбоя нет
Произошел сбойПараметры
детектора
Последствия изменения структуры веб-сайта: Данные не извлекаются (проблема может быть обнаружена
самой системой сбора) Извлекаются некорректные данные (для обнаружения
проблемы необходима подсистема детектирования)
Подходы к обнаружению сбоев
• Оперативное обнаружение• анализируется только одна веб-
страница
• Отложенное обнаружение• анализируется набор из
нескольких веб- страниц
Анализ одной веб-страницы
+: скорость реакции на сбой
- : частые ложные срабатывания
Статистика
Система сбора
Правила
Администратор
Система обнаружения сбоевWeb-страница
с текстомКлассификатор БД с текстами
новостейСбоя нет
Произошел сбой
Анализ набора веб-страниц
+: высокое качество проверки
- : задержка обнаружения сбоя
Система сбора
Правила
Администратор
Система обнаружения сбоев
Web-страница с текстом
Анализатор
БД с текстами новостей
Сбоя нет
Произошел сбой
Статистика
Эталон
Двухступенчатый анализ веб-страниц
Статистика
Система сбора Оперативный детектор
Отложенный детектор
Правила
Администратор
Система обнаружения сбоев
Модель документа
Характеристики документа:
, , , , , , , , H B S I OX P S N V T T T T T
P – объем веб-страницыS – суммарный размер параграфовN – количество параграфов в статьеV – дисперсия размера параграфа в рамках
статьи Класс html-элементов
Характеристика
H – гиперссылки TH
B – текстовые блоки TB
S – форматирование TS
I – изображения TI
O - прочее TO
Модель набора документов 1
Характеристики, описывающие свойства текста:
1( ,.., )nmP P P 1( ,.., )n
mN N N 1( ,.., )nmS S S 1( ,.., )n
mV V V
21 logm n
, , , P S N V
Формула Стерджесса:
Области значений разбиваются на m интервалов равной длины
где , , , - частота попадания значений величин P, S, N, V в i-ый интервал
Модель набора документов 2
Характеристики, описывающие свойства разметки:
( , , , , )nH B S I OT T T T T T
, , , , H B S I OT T T T T
1
ni
H Hi
T T
1
ni
B Bi
T T
1
n
iS S
i
T T
1
ni
I Ii
T T
1
ni
O Oi
T T
Количество тэгов различных классов в наборе документов:
Модель набора документов:
( , , , , )n n n n n nX P S N V T
Принципы оперативного детектирования 1
Методы бинарной классификации SVM Логистическая регрессия Наивный байесовский
классификатор
Принципы оперативного детектирования 2
Распределение значений параметров N и P для kp.ru
подозрительные статьи
Измененная модель документа
1 ( , , , , ) H B S I OY T T T T T
2 ,Y P S
Требования к векторам:
• небольшая размерность• отсутствие бесполезных векторов
Тэги:
Остальные параметры: 3 ,Y P N 4 ,Y P V
5 ,Y S N 6 ,Y S V 7 ,Y N V
Основные требования к методу кластеризации
Небольшое количество кластеров
Гиперсферическая форма кластеров
Высокая плотность кластеров
Методы кластеризации
Итерационные– Метод k-средних– EM-алгоритм
Иерархические– Метод одиночной связи– Метод полной связи– Метод средней связи
2Вычислительная сложность: ( )O n
Предложенный алгоритм кластеризации
1. Выбрать из множества документов n элементов2. Произвести кластеризацию методом средней связи3. Найти центроиды полученных k кластеров4. Поместить центроиды в множество элементов5. Повторять пункты 1-4 до достижения нужного числа
элементов6. Определить принадлежность исходных элементов
кластерам
2Вычислительная сложность: ( )N k
O nn k
Максимальное быстродействие достигается при n=2*k
Ограничивающие поверхности
• гиперпараллелепипеды• гиперэллипсоиды• гиперсферы
Отложенный детектор
Анализ сходства тестовой и эталонной выборок
Эталонная (lenta.ru)
Тестовая (корректные
данные - lenta.ru)
Тестовая (некорректные
данные – cnews.ru)
3 выборки случайной величины S:
Оценивание сходства выборок
Расстояние Кульбака-Лейблера (KLIC)
( ), ln
( )KLx
p xD p q p x
q x
M
Статистический ряд KLIC Критерий
0,
1, KL
KLKL
D K сбоянетf D
D K произошелсбой
Необходимо задать пороговое значение K:
Пороговая функция 1
max :i
ij iKA
LK D A j
A
- расстояние Кульбака-Лейблера между и эталонной выборкой
A – множество наборов документов
b
ah x
x
Простая пороговая функция:
Пороговая функция 2
7
0
ii
i
ah x
x
Универсальная пороговая функция:
Коэффициенты определяются методом наименьших квадратов
0 0 max j j
ja a K h
Функциональная схема системы детектирования
Блок самопроверки
Документы
Блок классификации
Блок переобучения
БД
БД
Блок отложенной проверки
Блок принятия решения
БД
Администратор
Оперативный детектор
Отложенный детектор
Исходные данные для экспериментов
Источники данных:– mail.ru– itar-tass.com– kp.ru– rbc.ru– kommersant.ru– ria.ru– rambler.ru
Параметры детектора:– Пороговое значение при самопроверке: 10%– Количество кластеров, формируемых оперативным
детектором: 10 Эталонные данные:
– 72888 корректных документов Тестовые данные
– 5169 корректных документов– 356 некорректных документов
Эксперимент 1. Оперативный детектор
Ложные срабатывания оперативного детектора
ML - размер обучающей выборкиMT - размер тестовой выборкиMS - средний размер анализируемого набора документов при самопроверкеND - количество подозрительных статей NS - количество подозрительных статей после самопроверки
Источник ML MT MS ND NS
mail 25296 2631 20 14 0itar-tass 11548 560 76 0 0
kp 7220 218 24 4 1rbc 3517 227 25 14 5
kommersant 5288 260 47 4 0ria 16519 1115 29 12 5
rambler 3500 158 15 17 13Всего: 72888 5169 34 65 24
Эксперимент 1. Отложенный детектор
Ложные срабатывания отложенного детектораИсточник ML MT FP FS FN FV FT NF
mail 25296 2631 0 0 0 0 0 0 из 5itar-tass 11548 560 0 0 0 0 0 0 из 5
kp 7220 218 1 0 0 0 0 1 из 5rbc 3517 227 0 0 0 0 0 0 из 5
kommersant 5288 260 0 0 0 0 0 0 из 5ria 16519 1115 0 0 0 0 0 0 из 5
rambler 3500 158 0 0 0 0 0 0 из 5
Всего: 72888 5169 1 0 0 0 0 1 из 35
ML - размер обучающей выборкиMT - размер тестовой выборкиFP, FS, FN, FV, FT - значения критериевNF - количество критериев, показавших наличие сбоя
Эксперимент 2. Оперативный детектор
Пропуск сбоев оперативным детектором
ML - размер обучающей выборкиMT - размер тестовой выборкиMS - средний размер анализируемого набора документов при самопроверкеND - количество подозрительных статей NS - количество подозрительных статей после самопроверки
Источник ML MT MS ND NS
mail 25296 356 25 356 356itar-tass 3500 356 25 356 356
kp 11548 356 25 356 356rbc 7220 356 25 356 356
kommersant 16519 356 25 356 356ria 3517 356 25 356 356
rambler 5288 356 25 356 356Всего: 72888 2492 25 2492 2492
Эксперимент 2. Отложенный детектор
Пропуск сбоев отложенным детектором
ML - размер обучающей выборкиMT - размер тестовой выборкиFP, FS, FN, FV, FT - значения критериевNF - количество критериев, показавших наличие сбоя
Источник ML MT FP FS FN FV FT NF
mail 25296 356 1 1 1 0 0 3 из 5itar-tass 11548 356 1 1 1 0 0 3 из 5
kp 7220 356 1 0 1 0 1 3 из 5rbc 3517 356 1 1 1 0 1 4 из 5
kommersant
5288 356 1 1 1 1 1 5 из 5
ria 16519 356 1 0 1 1 1 4 из 5rambler 3500 356 1 1 1 1 1 5 из 5
Всего:72888 2492
7 5 7 3 5 27 из 35
Основные результаты
Характеристики разработанного подхода к обнаружению сбоев: Двухступенчатый анализ Быстрая иерархическая кластеризация Сравнение выборок с помощью расстояния
Кульбака-Лейблера Использование пороговой функции
Качество работы оперативного детектора:• 99,54% на корректных данных• 100% на некорректных данных
Качество работы отложенного детектора:• 97,14% на корректных данных• 77,15% на некорректных данных