Научно-производственный центр

Тема доклада

Метод обнаружения изменений

структуры веб-сайтов в системе

сбора новостной информации

Задача сбора новостной информации

XPath правила

Очищенный текст

Метаданные в XML форме

БД с текстами новостей

Результат сбораWeb-страница с

текстом

RSS-лента

Новостной Web-сайт

Система сбора

Статистика

Задача обнаружения сбоев


Xpath правила

Администратор

Детектор сбоевИсточники


Сбоя нет

Произошел сбойПараметры

детектора

Последствия изменения структуры веб-сайта: Данные не извлекаются (проблема может быть обнаружена

самой системой сбора) Извлекаются некорректные данные (для обнаружения

проблемы необходима подсистема детектирования)

Подходы к обнаружению сбоев

• Оперативное обнаружение• анализируется только одна веб-

страница

• Отложенное обнаружение• анализируется набор из

нескольких веб- страниц

Анализ одной веб-страницы

+: скорость реакции на сбой

- : частые ложные срабатывания



Правила


Система обнаружения сбоевWeb-страница

с текстомКлассификатор БД с текстами

новостейСбоя нет

Произошел сбой

Анализ набора веб-страниц

+: высокое качество проверки

- : задержка обнаружения сбоя


Правила


Система обнаружения сбоев

Web-страница с текстом

Анализатор


Сбоя нет

Произошел сбой


Эталон

Двухступенчатый анализ веб-страниц


Система сбора Оперативный детектор

Отложенный детектор

Правила


Система обнаружения сбоев

Модель документа

Характеристики документа:

, , , , , , , , H B S I OX P S N V T T T T T

P – объем веб-страницыS – суммарный размер параграфовN – количество параграфов в статьеV – дисперсия размера параграфа в рамках

статьи Класс html-элементов

Характеристика

H – гиперссылки TH

B – текстовые блоки TB

S – форматирование TS

I – изображения TI

O - прочее TO

Модель набора документов 1

Характеристики, описывающие свойства текста:

1( ,.., )nmP P P 1( ,.., )n

mN N N 1( ,.., )nmS S S 1( ,.., )n

mV V V

21 logm n

, , , P S N V

Формула Стерджесса:

Области значений разбиваются на m интервалов равной длины

где , , , - частота попадания значений величин P, S, N, V в i-ый интервал

Модель набора документов 2

Характеристики, описывающие свойства разметки:

( , , , , )nH B S I OT T T T T T

, , , , H B S I OT T T T T

1

ni

H Hi

T T

1

ni

B Bi

T T

1

n

iS S

i

T T

1

ni

I Ii

T T

1

ni

O Oi

T T

Количество тэгов различных классов в наборе документов:

Модель набора документов:

( , , , , )n n n n n nX P S N V T

Принципы оперативного детектирования 1

Методы бинарной классификации SVM Логистическая регрессия Наивный байесовский

классификатор

skv

Докладывать результаты обзора этих методов смысла нет, поскольку методы классификации - вещь известная. На мой взгляд, нужно говорить о том, что оперативный детектор представляет собой классификатор, который может быть построен на основе известных подходов, часть которых отражена на слайде. Сам слайд имеет смысл переименовать в "Принципы оперативного детектирования"

Илья

Этот слайд соответствует месту в статье, где говорится о несостоятельности перечисленных методов при отсутствии негативных примеров и предлагается построить работу классификатора на определении схожести анализируемого документа с эталонными (эта идея развивается на следующем слайде).

Принципы оперативного детектирования 2

Распределение значений параметров N и P для kp.ru

подозрительные статьи

skv

Нет, полагаю, что здесь слушатель подводится к тому, что для построения классов мы будем использовать методы кластеризации. Название слайда предлагаю оставить текущее, т.к. фразу "предварительный экспериментальные исследования" никто читать не будет - слишком много несущественных слов.

Илья

Здесь демонструются плотные области точек и предлгается идея использования этих областей для определения корректности документов. О кластеризации речь всё же пойдёт несколько позже.

Измененная модель документа

1 ( , , , , ) H B S I OY T T T T T

2 ,Y P S

Требования к векторам:

• небольшая размерность• отсутствие бесполезных векторов

Тэги:

Остальные параметры: 3 ,Y P N 4 ,Y P V

5 ,Y S N 6 ,Y S V 7 ,Y N V

Основные требования к методу кластеризации

Небольшое количество кластеров

Гиперсферическая форма кластеров

Высокая плотность кластеров

Методы кластеризации

Итерационные– Метод k-средних– EM-алгоритм

Иерархические– Метод одиночной связи– Метод полной связи– Метод средней связи

2Вычислительная сложность: ( )O n

skv

На мой взгляд, данный слайд нужно позиционировать как место выбранного метода кластеризации по отношению к другим методам. Выбор метода средней связи обоснован на предыдущих слайдах.

Илья

Здесь обосновывается выбор метода, который лёг в основу разработанного нами алгоритма (приведенного на следующем слайде). Вычислительная сложность приведена именно для него

Предложенный алгоритм кластеризации

1. Выбрать из множества документов n элементов2. Произвести кластеризацию методом средней связи3. Найти центроиды полученных k кластеров4. Поместить центроиды в множество элементов5. Повторять пункты 1-4 до достижения нужного числа

элементов6. Определить принадлежность исходных элементов

кластерам

2Вычислительная сложность: ( )N k

O nn k

Максимальное быстродействие достигается при n=2*k

Ограничивающие поверхности

• гиперпараллелепипеды• гиперэллипсоиды• гиперсферы


Анализ сходства тестовой и эталонной выборок

Эталонная (lenta.ru)

Тестовая (корректные

данные - lenta.ru)

Тестовая (некорректные

данные – cnews.ru)

3 выборки случайной величины S:

Оценивание сходства выборок

Расстояние Кульбака-Лейблера (KLIC)

( ), ln

( )KLx

p xD p q p x

q x

M

Статистический ряд KLIC Критерий

0,

1, KL

KLKL

D K сбоянетf D

D K произошелсбой

Необходимо задать пороговое значение K:

Пороговая функция 1

max :i

ij iKA

LK D A j

A

- расстояние Кульбака-Лейблера между и эталонной выборкой

A – множество наборов документов

b

ah x

x

Простая пороговая функция:

Пороговая функция 2

7

0

ii

i

ah x

x

Универсальная пороговая функция:

Коэффициенты определяются методом наименьших квадратов

0 0 max j j

ja a K h

Функциональная схема системы детектирования

Блок самопроверки

Документы

Блок классификации

Блок переобучения

БД

БД

Блок отложенной проверки

Блок принятия решения

БД


Оперативный детектор


Исходные данные для экспериментов

Источники данных:– mail.ru– itar-tass.com– kp.ru– rbc.ru– kommersant.ru– ria.ru– rambler.ru

Параметры детектора:– Пороговое значение при самопроверке: 10%– Количество кластеров, формируемых оперативным

детектором: 10 Эталонные данные:

– 72888 корректных документов Тестовые данные

– 5169 корректных документов– 356 некорректных документов

Илья

Пороговое значение выбрано исходя из объема анализируеых при самопроверке данных (равного числу документов, скачиваемых в рамках одной транзакции). Было выбрано максимльно строгое пороговое значение (его дальнейшее уменьшение лишало бы сам процесс самопроверки смысла).Значение для количества кластеров выбрано опытным путём.

Эксперимент 1. Оперативный детектор

Ложные срабатывания оперативного детектора

ML - размер обучающей выборкиMT - размер тестовой выборкиMS - средний размер анализируемого набора документов при самопроверкеND - количество подозрительных статей NS - количество подозрительных статей после самопроверки

Источник ML MT MS ND NS

mail 25296 2631 20 14 0itar-tass 11548 560 76 0 0

kp 7220 218 24 4 1rbc 3517 227 25 14 5

kommersant 5288 260 47 4 0ria 16519 1115 29 12 5

rambler 3500 158 15 17 13Всего: 72888 5169 34 65 24

skv

Колонки Nd и Ns следует выделить красной рамкой, чтобы слушатели сразу поняли, куда им нужно смотреть. Строку "Всего" можно убрать", информация явно лишняя для слайда.

Илья

Может быть, строку "Всего" всё же оставить? Ведь приведенные в конце показатели качества работы детектора вычисляются именно на основе значений из этой строки. В противном случае станет непонятно, откуда взялись эти показатели.

Илья

Не очень понял про схему экспериментального макета. Что она из себя представляет? Ведь схема функционирования системы детектирования уже приведена, и исходные данные тоже...

Эксперимент 1. Отложенный детектор

Ложные срабатывания отложенного детектораИсточник ML MT FP FS FN FV FT NF

mail 25296 2631 0 0 0 0 0 0 из 5itar-tass 11548 560 0 0 0 0 0 0 из 5

kp 7220 218 1 0 0 0 0 1 из 5rbc 3517 227 0 0 0 0 0 0 из 5

kommersant 5288 260 0 0 0 0 0 0 из 5ria 16519 1115 0 0 0 0 0 0 из 5

rambler 3500 158 0 0 0 0 0 0 из 5

Всего: 72888 5169 1 0 0 0 0 1 из 35

ML - размер обучающей выборкиMT - размер тестовой выборкиFP, FS, FN, FV, FT - значения критериевNF - количество критериев, показавших наличие сбоя

Эксперимент 2. Оперативный детектор

Пропуск сбоев оперативным детектором

ML - размер обучающей выборкиMT - размер тестовой выборкиMS - средний размер анализируемого набора документов при самопроверкеND - количество подозрительных статей NS - количество подозрительных статей после самопроверки

Источник ML MT MS ND NS

mail 25296 356 25 356 356itar-tass 3500 356 25 356 356

kp 11548 356 25 356 356rbc 7220 356 25 356 356

kommersant 16519 356 25 356 356ria 3517 356 25 356 356

rambler 5288 356 25 356 356Всего: 72888 2492 25 2492 2492

Эксперимент 2. Отложенный детектор

Пропуск сбоев отложенным детектором

ML - размер обучающей выборкиMT - размер тестовой выборкиFP, FS, FN, FV, FT - значения критериевNF - количество критериев, показавших наличие сбоя

Источник ML MT FP FS FN FV FT NF

mail 25296 356 1 1 1 0 0 3 из 5itar-tass 11548 356 1 1 1 0 0 3 из 5

kp 7220 356 1 0 1 0 1 3 из 5rbc 3517 356 1 1 1 0 1 4 из 5

kommersant

5288 356 1 1 1 1 1 5 из 5

ria 16519 356 1 0 1 1 1 4 из 5rambler 3500 356 1 1 1 1 1 5 из 5

Всего:72888 2492

7 5 7 3 5 27 из 35

Основные результаты

Характеристики разработанного подхода к обнаружению сбоев: Двухступенчатый анализ Быстрая иерархическая кластеризация Сравнение выборок с помощью расстояния

Кульбака-Лейблера Использование пороговой функции

Качество работы оперативного детектора:• 99,54% на корректных данных• 100% на некорректных данных

Качество работы отложенного детектора:• 97,14% на корректных данных• 77,15% на некорректных данных

Научно-производственный центр

Documents

Transcript of Научно-производственный центр