Исследование регламентируемых фрагментов...

18
Исследование регламентируемых фрагментов российского Веба Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований Карельского научного центра РАН

description

Исследование регламентируемых фрагментов российского Веба. Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований Карельского научного центра РАН. - PowerPoint PPT Presentation

Transcript of Исследование регламентируемых фрагментов...

Page 1: Исследование регламентируемых фрагментов российского Веба

Исследование регламентируемых фрагментов российского Веба

Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с.

Институт прикладных математических исследований Карельского научного центра РАН

Page 2: Исследование регламентируемых фрагментов российского Веба

2

•Регламентируемый веб-ресурс - это веб-ресурс, для которого существует (должен существовать) нормативный документ, в котором изложены цели, задачи, основные структурные составляющие, правила обновления, добавления и изменения информации веб-ресурса.

•Целевое множество - задаваемое прямым перечислением множество регламентируемых сайтов.

•Сопутствующее множество - множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества.

•Фрагмент Веба - объединение сайтов целевого и сопутствующего множеств и множество связывающих их гиперссылок.

2

Page 3: Исследование регламентируемых фрагментов российского Веба

3

Объекты исследований: •академический фрагмент Веба (целевое множество – официальные

сайты научных учреждений РАН);•университетский фрагмент Веба (целевое множество – официальные

сайты классических университетов РФ);•бюрократический фрагмент Веба (целевое множество – официальные

сайты органов государственной власти Республики Карелия).

3

Page 4: Исследование регламентируемых фрагментов российского Веба

Информационная система для вебометрических исследований:

1.Робот-сборщик гиперссылок

2.База данных

Операции, функции, фильтры БД ВИ:

Разработаны около 20 штук по мере возникновения

необходимости.

Первая – ВЫБОРКА, ....

затем – ССЫЛКИ НА ЗАДАННЫЙ САЙТ, ССЫЛКИ С

ЗАДАННОГО САЙТА,

СОПУТСТВУЮЩЕЕ МНОЖЕСТВО,

.... МАТРИЦА СМЕЖНОСТИ,

..... И т.д.

4

Page 5: Исследование регламентируемых фрагментов российского Веба

5

Академический Веб: 288 сайтов целевого множества, отсканированы все,2,190,000 страниц, обнаруженных ссылок – 720,000, из них уникальных 82500.Из 23000 сайтов сопутствующего множества отсканировано 2300, обнаруженных ссылок – 1,100,000, из них уникальных 125000.

уровень, откуда, зачем, кудаПример

<02>< mathem.krc.karelia.ru/event.php> <XI Всероссийская конференция RCDL’2009> <rcdl2009.krc.karelia.ru>

Уникальная гиперссылка – это ссылка из множества всех гиперссылок, имеющих одинаковый контекст и адрес целевой страницы, сделанная со страницы с наивысшим уровнем.

Page 6: Исследование регламентируемых фрагментов российского Веба

6

Много ссылок – с 10 и Много ссылок – с 10 и

более сайтов из более сайтов из TT,,

Мало – менее, чем с 10 Мало – менее, чем с 10 сайтов из сайтов из TT..

На примере академического Веба

Page 7: Исследование регламентируемых фрагментов российского Веба

Диаграмма академического Веба

Дробь N/R обозначает

количество сайтов, входящих в данное подмножество (N)

и

среднее количество уникальных гиперссылок, сделанных на сайты этого подмножества с целевого множества (R).

Page 8: Исследование регламентируемых фрагментов российского Веба

Вывод 1: слабая связность на целевом множестве

Максимальная компонента сильной связности содержит 175 сайтов и имеет диаметр, равный 6 (вершины более темного цвета), а каждая из остальных 113 состоит из единственной вершины (более светлые вершины).

Page 9: Исследование регламентируемых фрагментов российского Веба

Прикладные проблемы управления макросистемами 2010 9

  Академические коллекторы (17)1 РФФИ 102 92 Научная электронная библиотека 62 13 ВАК 44 34 Московский государственный университет 33 45 МАИК Наука_Интерпериодика 53 26 Роснаука РФ 26 3

Примеры: Сайты-коммуникаторы академического Веба

  Академические посредники (8)1 Новосибирский государственный университет 27 102 Отделение ГПНТБ СО РАН 23 143 Междисциплинарный научный сервер 23 1184 Московский физико-технический институт 22 135 Библиотека по естественным наукам РАН 19 37

6Новосибирский государственный технический университет 16 10

  Академические индукторы (8)1 Все о геологии 8 242 Общероссийский математический портал 8 133 Портал для аспирантов 7 174 Библиотека Академии Наук 6 20

5 Исторический факультет МГУ 6 196 Издательство СО РАН 6 20

Page 10: Исследование регламентируемых фрагментов российского Веба

Вывод 2 : ценность коммуникаторов

•При добавлении коллекторов: мощность максимальной компоненты связности увеличивается

до 214.

•При добавлении индукторов:мощность максимальной компоненты связности увеличивается

до 190.

•При добавлении посредников:мощность максимальной компоненты связности увеличивается

до 191.

•При добавлении всех трех подмножеств коммуникаторов:мощность максимальной компоненты связности увеличивается

до 237.

•Во всех четырех случаях диаметр наибольшей компоненты связности становится равным 7.

Page 11: Исследование регламентируемых фрагментов российского Веба

11

Пример взвешенного веб-графа для 4 сайтов.

Граф – сильно связный.

Дуги имеют различные веса.

d(i,t) – длина кратчайшего пути из вершины i в вершину t в графе G(T,Е), где i,tT. Критерий доступности сайта t на множестве T - средняя длина пути в заданную вершину tT из любой вершины iT, i≠t, которая задается следующим образом:

( )

1-

,)(

∑≠,∈

n

tidtmidd tiTi= На примере для вершины 1:

midd(1)=(1+3+1)/3=5/3.

Далее будем использовать просто сумму, а не среднюю сумму, т.к. это не влияет на результат.

Задача дележа затрат (1)

Page 12: Исследование регламентируемых фрагментов российского Веба

12

Вариант 2.

сайт midd(i) middhub(i)выигрыш

v(i)

1 5 4 1

2 13 6 7

3 9 6 3

4 17 6 11

Задача дележа затрат (2)

Page 13: Исследование регламентируемых фрагментов российского Веба

13

Вариант 3. Кооперативные игры.

Вектор Шепли — принцип оптимальности распределения выигрыша между игроками в задачах теории кооперативных игр. Представляет собой распределение, в котором выигрыш каждого игрока равен его среднему вкладу в благосостояние тотальной коалиции при определенном механизме ее формирования.

Задача дележа затрат (3)

Page 14: Исследование регламентируемых фрагментов российского Веба

14

На нашем примере

сайт midd(i) (i)выигрыш

w(i)

1 5 4,67 0,33

2 13 5,83 7,17

3 9 2,67 6,33

4 17 8,83 8,17

выигрыш v(i)

Вар 2 выигрыш w(i)

Вар 3

1 4,55% 0,33 1,50%7 31,82% 7,17 32,59%3 13,64% 6,33 28,77%

11 50,00% 8,17 37,14%

Задача дележа затрат (4)

Page 15: Исследование регламентируемых фрагментов российского Веба

Пустьn – количество участников,ci – значимость i-го участника, ci>0, i=1..n,

mi – максимально возможное количество прямых ссылок от i-го на других участников, mi>0, i=1..n.

Матрица ссылок X=(xij), i,j=1..n,

где xij=1, если существует ссылка от i-го участника к j-му, и xij=0, если нет.

Ограничения будут определены несколько ниже.F(X) функция, характеризующая некоторый интегральный показатель значимости всех ‑

участников веб-системы и зависящая от того, каким образом расставлены ссылки между ее участниками.

Функция приращения значимости:

– чем больше ссылок на ресурс, тем он становится «значимее»,– чем больше значимость ресурса i, тем больше возрастает значимость ресурса j, если xij=1,

– чем больше исходящих ссылок от ресурса i, тем меньше приращение значимости каждого ресурса j, для которого xij=1.

∑∑1

1

~ n

iin

kik

ij

jj cx

xcс

Задача расстановки ссылок в локализованной системе веб-ресурсов (1)

Page 16: Исследование регламентируемых фрагментов российского Веба

• Ограничения

• Целевая функция 1

Чем меньше , тем больше

• Целевая функция 2

0=iix , ni ,1=

1,0=ijx , ni ,1= , nj ,1=

i

n

jij mx ≤∑

1=

, ni ,1=

1≥∑1

n

jijx

=

, ni ,1=

( )

Xj

n

jjcXF max→~∑

1

=

=

ijx

n

jj

n

kk

cn

cXF min~

~2

1

1

1≤0 j< jc

Задача расстановки ссылок в локализованной системе веб-ресурсов (2)

Page 17: Исследование регламентируемых фрагментов российского Веба

Задача расстановки ссылок в локализованной системе веб-ресурсов (3)

Апробация и модификация моделей на данных Яндекса ограничение заменено на строгое равенство,

в качестве приняты значения тИЦ,

отобрано 20 реальных сообществ, содержащих от 7 до 84 участников.

По модели 1:• Религия. Православие,• Баннерная сеть Ket.Ru,• Министерства РФ,• Сайты КарНЦ РАН (0.905),• Целлюлозно-Бумажная Баннерная Сеть По модели 2:• Сайты КарНЦ РАН,• Министерства РФ,• Баннерная сеть Ket.Ru,• Религия. Православие,• Целлюлозно-Бумажная Баннерная Сеть.

i

n

jij mx ≤∑

1=

,

nici ,1,~ =

Задача расстановки ссылок в локализованной системе веб-ресурсов (3)

Page 18: Исследование регламентируемых фрагментов российского Веба

18