ОБЗОР МОДЕЛЕЙ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ДЛЯ...

УДК 004.8

С.И. Николенко, А.А. ФишковОБЗОР МОДЕЛЕЙ ПОВЕДЕНИЯПОЛЬЗОВАТЕЛЕЙ ДЛЯ ЗАДАЧИ

РАНЖИРОВАНИЯ РЕЗУЛЬТАТОВ ПОИСКА

Николенко С.И., Фишков А.А. Обзор моделей поведения пользователейдля задачи ранжирования результатов поиска.Аннотация. Модели поведения пользователей – одно из основных направле-ний исследований в области улучшения интернет-поиска; это обычно вероят-ностные модели, обучающиеся из данных о пользовательских действиях (clicklogs). Мы представляем обзор современных моделей поведения пользователей,а также рассказываем о том, как модели поведения комбинируются с другимипризнаками в функции ранжирования.Ключевые слова: модели поведения пользователя, графические вероятност-ные модели, усиление.

Nikolenko S.I., Fishkov A.A. A survey of user behaviour models for searchresults ranking.Abstract. User behaviour models represent important features used to enhanceweb search results; they are usually probabilistic models learned from logs of useractions (click logs). We present a survey of modern user behaviour models andreview how behaviour models are combined with other features in the rankingfunction.Keywords: user behaviour models, probabilistic graphical models, boosting.

1. Введение. С каждым годом всё более привычным спосо-бом доступа к различной информации становится сеть Интернет.Поисковые системы – важнейшая часть современного интернета иставший уже неотъемлемым признак современного информацион-ного общества [36].

Взаимодействие с такой системой происходит следующим об-разом: пользователь вводит запрос, после чего поисковая системапредставляет ему список документов, которые наилучшим обра-зом соответствуют его запросу. Средняя длина современного по-искового запроса составляет всего 2,5 слова (по данным исследо-вания [47]), и, конечно, пользователь не сможет просмотреть вседокументы из базы поисковой системы, т.е. принципиальное значе-ние приобретает задача ранжирования документов по степени ихсоответствия запросу – релевантности.

Для решения задачи ранжирования, а также для оценки каче-ства поиска используются экспертные оценки релевантности доку-мента запросу. На основе информации о содержимом документа,

тексте запроса и других признаках этой пары ранжирующая функ-ция строится с помощью методов машинного обучения [4–6, 9, 13].Получение экспертных оценок – процесс трудоёмкий и дорогосто-ящий. Этот подход не лишён недостатков: эксперты могут расхо-диться во мнениях, да и сами мнения экспертов могут менятьсясо временем в результате появлением новых страниц или другихсобытий, происходящих в мире или в сети.

Известно, что современные поисковики ведут историю посеще-ний, запросов и переходов для всех пользователей. Интерес пред-ставляет использование этой информации для ранжирования иулучшения поиска. Эта информация доступна в больших объёмах,не требует больших затрат на получение и содержит оперативнуюинформацию для огромного числа документов. Впервые эта идеябыла предложена в работе [20]. Авторами были проведены экспери-менты с участием людей и сформулированы основные положенияоб их поведении при взаимодействии с поисковой системой. Средипоследующих работ наиболее сильные результаты были полученыв области построения вероятностных моделей поведения пользова-теля [7, 10,11,16,35].

В этой работе мы предлагаем обзор современных моделей пове-дения пользователя, а также приводим описание того, как же объ-единить большое число имеющиеся признаков в единую функциюранжирования. Работа организована следующим образом: раздел 2вводит основные принципы информационного поиска и место ве-роятностных моделей в информационном поиске. В разделе 3 рас-сматриваются основные гипотезы о поведении пользователя, из ко-торых исходят создатели моделей, и относительно простые веро-ятностные модели, иллюстрирующие эти гипотезы. Раздел 4 по-свящён более сложным вероятностным моделям поведения поль-зователя, представленным в виде графических вероятностных мо-делей. В разделе 5 мы описываем, как именно эти и другие моделиможно внедрить в реальную поисковую систему, т.е. как из мно-жества признаков (в том числе результатов различных моделейповедения пользователя) можно обучить единую ранжирующуюфункцию. Раздел 6 завершает работу.

2. Принципы информационного поиска и вероятност-ные модели.

2.1. Информационный поискВ наше время под поиском информации обычно подразумевают

поиск в интернете, однако термин «информационный поиск» воз-ник гораздо раньше. Согласно монографии [25], информационныйпоиск – это процесс поиска в большой коллекции (хранящейся,как правило, в памяти компьютеров) некоего неструктурирован-ного материала (обычно – документа), удовлетворяющего инфор-мационные потребности.

Сначала информационный поиск касался научных учрежде-ний, и многие университеты и библиотеки стали использоватьинформационно-поисковые системы – программно-аппаратные ком-плексы, предоставляющие возможности поиска информации. Вско-ре этот подход распространился на медицинские, государственныеи банковские структуры. Сейчас, конечно, подобные системы внед-рены повсеместно. Для взаимодействия с поисковой системой поль-зователь делает запрос – формулирует свою информационную по-требность на языке, понятном системе. В ответ на запрос систе-ма выдаёт пользователю упорядоченный список документов. Дляопределения соответствия документов запросам в теории инфор-мационного поиска вводится следующее понятие: релевантность –это соответствие документа информационному запросу. По мето-ду определения обычно различают формальную и содержатель-ную релевантности. Формальная релевантность определяется с по-мощью некоторого алгоритма, реализованного в информационно-поисковой системе. Содержательная релевантность – это соответ-ствие документа запросу пользователя, определяемое неформаль-ным путём, по семантике документа.

На первый взгляд, цель информационного поиска можно сфор-мулировать следующим образом: найти все релевантные докумен-ты. Но при работе с большими коллекциями документов итоговоеколичество документов, соответствующих запросу, может быть на-столько большим, что человек просто не сможет просмотреть ихвсе. Таким образом, одной из важных задач поисковой системыявляется ранжирование документов по степени их соответствиязапросу. Функцию, сопоставляющую каждому документу число –вычисленную релевантность документа данному запросу – называ-ют ранжирующей функцией (ranking function). Эта функции учи-тывает различные признаки документа, запроса, а также всей кол-лекции документов в поисковой системе. Сейчас большое распро-странение получили ранжирующие функции, полученные с помо-щью алгоритмов комбинации моделей; мы рассмотрим некоторые

из них в разделе 5. Для обучения комбинации моделей требуетсяналичие некоторого числа документов с известными истиннымизначениями релевантности. Их получают от специальных экспер-тов – асессоров. Методику получения этих оценок можно краткоописать следующим образом: сначала для оцениваемого запросаформируются условия релевантности – предположения о наиболеевероятной интерпретации запроса, о возможной информационнойпотребности пользователя, сделавшего данный запрос; среди всехвозможных интерпретаций следует выбирать ту, которой придер-живается подавляющее большинство пользователей.

При взаимодействии с поисковой системой пользователь не все-гда может адекватно выразить свою информационную потребностьс помощью запроса. Например, по запросу «цезарь» поисковая си-стема может выдать пользователю биографию Гая Юлия Цезаря,а может – рецепт салата «Цезарь». Хотя и тот и другой документынесомненно являются релевантными запросу пользователя, одно-значно определить, какой именно из них отвечает информацион-ным потребностям пользователя, система не может.

Пертинентность – это соответствие найденных информаци-онно-поисковой системой документов информационным потребно-стям пользователя, независимо от того, как полно и как точно этаинформационная потребность выражена в тексте информационно-го запроса. Информацию о пертинентности может предоставитьлишь сам пользователь поисковой системы. С точки зрения поль-зователя, цель информационного поиска – найти все пертинентныеи только пертинентные документы; как говорил один из создате-лей Google Ларри Пейдж, «идеальная поисковая система понимает,что вы имеете в виду, и возвращает в точности то, что вы хотели».В общем случае эта задача неразрешима, так как, как мы толькочто видели, один и тот же запрос может соответствовать многимразным намерениям пользователя.

Современные поисковые системы ранжируют результаты по-иска на основе упомянутой выше формальной (ещё её называютвычисленной) релевантности. Для увеличения степени пертинент-ности этих результатов для конкретного пользователя используют-ся технологии «персонализированного поиска»: поисковая системахранит информацию о пользователе, его предпочтениях и по каж-дому запросу формирует выдачи в соответствии с ними. На сего-дняшний день функция персонализированного поиска доступна в

поисковой системе Google. Для её работы пользователю предлага-ется самостоятельно «удалять» из выдачи не релевантные данно-му запросу документы, эти документы в дальнейшем не будут емупоказаны по схожим запросам. Эти технологии только начинаютразвиваться и внедряться, и в настоящей работе мы не будем ихрассматривать.

2.2. Вероятностная модель поискаКак уже упоминалось выше, пользователь неточно формулиру-

ет свою информационную потребность в виде запроса. Имея толькозапрос, система не может точно определить релевантность того илииного документа. Для принятия решений в условиях неопределён-ности необходим математический аппарат теории вероятностей.

Рассмотрим поиск с ранжированием, в котором пользовательформулирует запрос и в ответ на него получает от поисковой систе-мы упорядоченный список документов. Предположим, что оценкирелевантности бинарные: документ может быть либо релевантнымданному запросу, либо не релевантным. Таким образом, для каж-дого документа d и запроса q вводится случайная величина R(d,q) –показатель релевантности; она равна единице, если документ d яв-ляется релевантным запросу q, и равна нулю в противном случае.Когда это не вызывает недоразумений, будем обозначать показа-тель релевантности просто R.

В рамках такой модели естественным является ранжированиедокументов по оценённым вероятностям их релевантности запросу:p(R(d,q) = 1). Такой подход лежит в основе вероятностного прин-ципа ранжирования, предложенного Робертсоном в 1977 году [34].Приведём его основные положения:

(1) релевантность документа запросу не зависит от других доку-ментов в коллекции;

(2) пертинентность документа для пользователя может зависетьот уже просмотренных им документов;

(3) вероятностный принцип ранжирования: если поисковая си-стема в ответ на каждый запрос пользователя ранжирует доку-менты в порядке убывания их вероятности быть релевантнымизапросу пользователя, и эта вероятность оценивается наиболееточно на основе доступных данных, то общее качество системыявляется наилучшим на основе доступных данных.

Для формального доказательства оптимальности этого прин-ципа в конкретной ситуации необходимо зафиксировать критерийкачества. Самой простой является модель бинарных потерь: по-тери на документе di составляют L(di) = 1, если он был выдансистемой, будучи не релевантным, или не был выдан, будучи реле-вантным; в остальных случаях L(di) = 0. Общие потери являют-ся суммой потерь на всех документах коллекции. Определим цельсистемы по данному запросу q и числу k так: вернуть k наиболеерелевантных документов. Тогда справедлива следующая теорема.

Теорема (Robertson). Вероятностный принцип ранжиро-вания является оптимальным в смысле минимизации ожидаемыхпотерь в модели бинарных потерь.

Доказательство этой теоремы приведено в [34]. Она требуетиспользования аналитического представления всех распределенийдля получения оценок, что недостижимо на практике. Тем не ме-нее, вероятностный принцип ранжирования стал основой для раз-работки современных моделей информационного поиска.

2.3. Критерии оценки качества поискаДля оценки качества поиска необходимо иметь некоторое тесто-

вое множество, содержащее «достоверную» информацию о том, ка-кой документ является релевантным каким запросам. Обычно те-стовое множество строится специальными экспертами и состоит изоценок релевантности для пар (запрос, документ). Оценки могутбыть числовыми или категориальными. Так как оценки получаютот людей, тестовое множество покрывает лишь малую часть всейбазы поисковой системы и его получение является трудоёмким идорогостоящим.

Классическими параметрами для оценки качества работы по-исковой системы являются точность и полнота:

(1) точность (precision) – количество релевантных запросу доку-ментов в выдаче, делённое на общее количество документов ввыдаче;

(2) полнота (recall) – количество релевантных запросу документовв выдаче, делённое на общее количество релевантных докумен-тов в базе поисковой системы.

Эти параметры поисковой системы недостаточно полно описы-вают качество её работы, так как не зависят от ранжирования вы-

дачи. Кроме того, трудно оценить изменения качества, если, на-пример, увеличилась точность поиска, а полнота снизилась.

Как уже отмечалось, ранжирование играет важную роль впоисковой системе, поэтому распространение получили меры ка-чества ранжирования результатов. Самой распространённой насегодняшней день является NDCG [19] – Normalized DiscountedCommulative Gain. Так как размер выдачи по каждому запросуможет быть различным, ограничиваются первыми k результата-ми. Формула для одного запроса следующая:

DCGk =

k∑i=1

2ri − 1

log2(1 + i),

NDCGk =DCGk

IDCGk,

где ri – оценка релевантности документа на позиции i, а IDCGk –значение DCGk при ранжировании по истинным значениям ре-левантности документов. Таким образом, максимальное значениеNDCG составляет 1. Хотя эта мера учитывает положение докумен-тов в выдаче, у неё нет естественной интерпретации.

Ранжирование на основе вероятностного принципа можно рас-сматривать и как задачу бинарной классификации; тогда болееестественной мерой качества может стать AUC [12] (Area Under(ROC) Curve, площадь под графиком). Для бинарного класси-фикатора можно построить кривую соотношения корректного иложного обнаружения (ROC curve, Receiver Operating Characteris-tics curve), отражающую зависимость между вероятностями оши-бок первого и второго рода. В частности, если ответом классифи-катора является вероятность принадлежности «положительному»классу, то площадь под графиком этой кривой будет равна веро-ятности того, что случайно выбранному «положительному» экзем-пляру будет присвоено большее значение, чем «отрицательному».Если документы в выдаче упорядочиваются по оценкам вероят-ности принадлежности релевантному классу, то следующая стати-стика является несмещённой оценкой AUC [23]:

A =S0 − n0(n0 + 1)/2

n0n1,

где n0,n1 – число релевантных и нерелевантных документов в вы-даче, S0 =

∑pi – сумма номеров позиций релевантных документов

в выдаче.Как мера качества поиска эта величина имеет естественную ин-

терпретацию: оценка вероятности того, что релевантный документбудет расположен выше нерелевантного.

2.4. Графические вероятностные моделиМногие современные вероятностные модели поведения пользо-

вателей представляются в виде графических вероятностных моде-лей. Графические вероятностные модели представляют совместноераспределение случайных величин, участвующих в вероятностноймодели решаемой задачи, в виде графа, рёбра которого (точнее, ихотсутствие) кодируют условные независимости между величина-ми. Можно выделить следующие основные достоинства этого под-хода.

1. Визуальное представление структуры вероятностной моделиявляется наглядным, способствует быстрой разработке, из-менению и представлению новых моделей.

2. Важные свойства модели, например условная независимостьвходящих в неё случайных величин, сводятся к свойствамграфа, соответствующего данной модели.

3. Сложные связанные с использованием модели вычисления,такие, как получение оценок параметров, могут быть сфор-мулированы в виде алгоритмов на соответствующем графе.

Классический граф состоит из множества вершин и множестварёбер. В графической вероятностной модели вершины графа обо-значают случайные величины, а рёбра – связи между ними. Гра-фические модели разных типов различаются способом построенияи видом графа. Модели, основанные на направленных графах, но-сят название байесовских сетей доверия (Bayesian belief networks)[2, 24, 28, 29, 37, 43]. Модели, основанные на ненаправленных гра-фах, часто называют марковскими случайными полями (Markovrandom fields) [2,18,24,30]. Ещё один тип графических вероятност-ных моделей представлен в аппарате алгебраических байесовскихсетей [39–46].

Разные типы моделей отличаются друг от друга своими свой-ствами и задают немного разные семейства распределений, но ос-новной алгоритм точного байесовского вывода – алгоритм переда-чи сообщений – в любом типе моделей удобно представлять на

фактор-графе. Фактор-граф даёт явное представление разложе-ния сложной функции в произведение более простых: рассмот-рим набор переменных X = {Xi} и набор функций (факторов)f, f1, . . . , fm, таких, что f(X) = 1

Z

∏j=1...m fj(Yj), Yj ⊂ X. Дву-

дольный граф G является фактор-графом для такого разложенияфункции f , если:

• вершинами первой доли являются переменные Xi;

• вершинами второй доли являются функции fj ;

• рёбра соединяют функции с их аргументами;

• Z – нормировочная константа, определяемая как

Z =

∫...

∫ ∏j=1...m

f(Yj).

Чаще всего фактор-граф используют для представления плот-ности совместного распределения случайных величин, однако из-вестны также варианты его использования в теории кодирования[24]. Представление в виде фактор-графа удобно для того, чтобыопределить алгоритм передачи сообщений (в этом контексте егообычно называют Belief Propagation) [14,22]. Мы не будем подробнорассматривать базовый алгоритм передачи сообщений и отошлёмчитателя к книгам, посвящённым этой тематике [2, 24].

Для вывода на графических вероятностных моделях поведе-ния пользователя большое значение имеет алгоритм ExpectationPropagation (EP) [26,27]. Этот алгоритм в общем случае решает за-дачу поиска в экспоненциальном семействе распределений такогораспределения, которое минимизирует КЛ-дивергенцию (рассто-яние Кульбака-Лейблера) с фиксированным распределением. Мыподробно рассмотрели алгоритм Expectation Propagation на приме-ре недавно разработанной модели SCM в предыдущей работе [38];в этом обзоре мы только рассказываем о базовых принципах мо-делей поведения пользователей и демонстрируем сами модели.

3. Гипотезы о поведении пользователя и простые моде-ли.

3.1. Обозначения и определения. Многие модели поведенияпользователей, или, как их ещё называют, клик-модели, использу-ют схожую терминологию и обозначения, и прежде чем описыватьконкретные модели, мы её введём.

При взаимодействии с поисковой системой пользователь делаетзапрос (query) q, получает в результате первыеM документов (ссы-лок), просматривает их, кликает на некоторые из них или ни на ка-кие. Эти действия рассматриваются в течение одного запроса илизапросной сессии (query session). Большинство моделей рассматри-вает их как отдельные и часто независимые сущности, называя ихтакже поисковыми сессиями (search session). В общем случае по-исковая сессия состоит из нескольких последовательных запросоводного и того же пользователя, разделённых небольшими интер-валами во времени. Оценки релевантности определяются для пар(запрос, документ), поэтому часто в моделях q явно не фигурирует.

Просмотр ссылки и клик трактуются как случайные события.Для конкретной запросной сессии переменная Ei обозначает про-смотр описания ссылки на документ, показанный на позиции i, Ci –клик на этой позиции. Тогда вероятность просмотра документа напозиции i равна p(Ei = 1), вероятность соответствующего клика –p(Ci = 1).

Прежде чем строить модели, сформулируем явно те предполо-жения о характере поведения пользователя при работе с поисковойсистемой, которые эти модели часто делают. Эти предположениявводились одновременно с появлением новых моделей (обычно от-носительно простых), пользующихся этими предположениями, по-этому далее в этом разделе мы будем рассматривать эти предпо-ложения вместе с соответствующими моделями.

3.2. Гипотеза просмотра. Большое распространение получи-ла так называемая гипотеза просмотра (examination hypothesis)[33]:

p(Ci = 1) = p(Ei = 1)p(Ci = 1 | Ei = 1),

то есть пользователь делает клик только после просмотра описа-ния. Эта гипотеза подтверждается экспериментами со слежениемза взглядом пользователя из той же работы. Также авторы предло-жили использовать второй сомножитель как оценку релевантностидокумента запросу:

p(Ci = 1 | Ei = 1) = rϕ(i),

p(Ci = 1 | Ei = 0) = 0,

где rϕ(i) считается релевантностью документа на позиции i.3.3. Каскадная гипотеза: CM и DCM.

В работе [8] вводится ещё одно популярное предположение –каскадная гипотеза (cascade hypothesis), которая заключается втом, что процесс просмотра описаний всегда начинается с первойпозиции и строго линеен. Позиция просматривается, только есливсе предыдущие позиции были просмотрены. Во введённых обо-значениях:

p(E1 = 1) = 1,

p(Ei+1 = 1 | Ei = 0) = 0,

В предлагаемой в [8] модели CM (Cascade Model) дополнитель-но устанавливается следующее ограничение:

p(Ei+1 = 1 | Ei = 1) = 1− Ci,

то есть пользователь продолжает просмотр до первого клика.Модель DCM (Dependent Click Model) [17] обобщает каскадную

гипотезу на несколько кликов по одной и той же выдаче:

p(Ei+1 = 1 | Ei = 1, Ci = 1) = λi,

p(Ei+1 = 1 | Ei = 1, Ci = 0) = 1,

где λi, i = 1, . . . ,M , – глобальные параметры поведения пользова-теля.

3.4. Гипотеза просмотра без каскадной гипотезы: мо-дель UBM.

Модель UBM (User Browsing Model) [11] основана на гипотезепросмотра, однако не следует каскадной гипотезе; вместо этого онапредполагает, что вероятность просмотра Ei зависит от позициипредыдущего клика ri = argmaxl<i{Cl = 1} и расстоянии от неёдо текущей позиции di = i− ri:

p(Ei = 1 | Cri = βri,di.

Для первого клика ri = 0. Величины в правой части являются па-раметрами поведения пользователя, их общее число M(M + 1)/2.Для получения оценок этих параметров авторы предлагают алго-ритм, требующий хранения в памяти наблюдений всех запросныхсессий, что затрудняет его практическое применение. В работе [17]предлагается упрощённая модель и эффективный алгоритм полу-чения оценок релевантности, но в сравнении с UBM она даёт худ-ший результат.

Далее в развитии клик-моделей начинается новый этап – полу-чение оценок релевантности выходит на передний план (многие мо-дели пришли из исследований рекламы, и основным показателемдля них являлась способность предсказывать клики). Важной но-вой идеей стало предположение о том, что последующие действияпользователя зависят от релевантности ранее просмотренных до-кументов. В самом деле, пусть система выдала список из 10 доку-ментов, и на позиции 3 находится релевантный документ. Если напервых двух позициях находятся нерелевантные документы, то до-ля кликов на третьей позиции будет высокой, в противном случаеможно ожидать, что она понизится вследствие того, что пользова-тели удовлетворят свою информационную потребность и прекра-тят поиск, даже не просмотрев этот документ. Эти идеи привели кболее сложным моделям поведения пользователя, основанным награфических вероятностных моделях, – к ним мы и переходим вследующем разделе.

4. Модели поведения пользователя, основанные на гра-фических вероятностных моделях.

4.1. Модель CCM (Click Chain Model).Данная модель была предложена в работе [7]. Сохраняя все

стандартные обозначения и следуя гипотезе просмотра, модельвводит новый параметр для каждого показанного документа – ре-левантность Ri ∈ [0,1], а также глобальные параметры α1,α2,α3.Эти параметры влияют на поведение пользователя на страницепоиска, которое изображено в виде блок-схемы на рис. 1.

Пользователь просматривает описание ссылки, далее с веро-ятностью Ri он кликает на неё (а с вероятностью 1 − Ri про-пускает), затем с вероятностью α1 завершает работу, а с вероят-ностью 1 − α1 продолжает просматривать ссылки. Если же былсделан клик, то продолжение просмотра определяется релевант-ностью просмотренного документа и параметрами α2,α3. На рис. 2модель представлена в виде байесовской сети. Наблюдаемые вели-чины выделены заливкой.

Для завершения формального описания модели приведём все

Рис. 1: Модель ССМ: блок-схема

условные вероятности:

p(Ci = 1|Ei = 0) = 0,

p(Ci = 1|Ei = 1,Ri) = Ri,

p(Ei+1 = 1|Ei = 0) = 0,

p(Ei+1 = 1|Ei = 1,Ci = 0) = α1,

p(Ei+1 = 1|Ei = 1,Ci = 1,Ri) = α2(1−Ri) + α3Ri.

Получение оценок релевантности документа производится пу-тём вычисления апостериорных распределений p(Ri|C1...M ). Таккак граф модели имеет циклы, авторы предлагают приближённыйалгоритм, в котором удаляют некоторые рёбра, точнее, считаютпеременные Ci условно независимыми при условии Ri:

p(Ri|C1...M ) ∝ p(Ri)p(C1...M |Ri).

После этого удаётся получить замкнутые формулы в виде полино-мов, но из-за их высокой степени для получения нормализацион-ной константы и среднего значения используются численные ме-тоды. Для оценки параметров авторы используют приближённыйметод максимального правдоподобия (так как граф модели содер-жит циклы).

Рис. 2: Модель ССМ: байесовская сеть

Хотя эта модель и учитывает влияние релевантности ранее про-смотренных документов на поведение на текущей позиции, в нейесть одна неточность: смешивается привлекательность описания ирелевантность соответствующего документа (релевантность влия-ет на клик ещё до того, как пользователь просмотрел саму страни-цу, а потом эта же величина влияет на последующие просмотры).Следующая модель разделяет эти два понятия.

4.2. Модель DBN (Dynamic Bayesian Network).Прежде всего необходимо отметить, что название этой моде-

ли является примером некорректного использования терминов:dynamic Bayesian network (динамическая байесовская сеть) – этоспециальный вид байесовских сетей, используемый для моделиро-вания последовательностей случайных величин. Так как авторыне дали своей модели названия, в литературе, посвящённой клик-моделям, за ней закрепилось именно это название.

Данная модель также опирается на гипотезу просмотра и кас-кадную гипотезу. Вдобавок к традиционным обозначениям вво-дятся дополнительные случайные бинарные величины: Ai пока-зывает, является ли документ привлекательным для пользователя(attractiveness), Si показывает, удовлетворяет ли документ инфор-

Рис. 3: Модель DBN: байесовская сеть

мационным потребностям пользователя (satisfaction). Последнийпараметр соответствует пертинентности, о которой говорилось вразделе 2.1. На рис. 3 приведена байесовская сеть для данной мо-дели.

Теперь приведём набор условных вероятностей. Здесь и далеемы будем для ясности изложения использовать логические связ-ки вместо выписывания условных вероятностей, равных нулям иединицами.

Ei = 1,Ai = 1⇔ Ci = 1,

p(Ai = 1) = ai,

p(Si = 1|Ci = 1) = si,

Ci = 0⇒ Si = 0,

Si = 1⇒ Ei+1 = 0,

p(Ei+1 = 1|Ei = 1,Si = 0) = γ,

Ei = 0⇒ Ei+1 = 0

В качестве оценки релевантности авторы используют следую-

щую условную вероятность:

ri = p(Si = 1|Ei = 1) = p(Si = 1|Ci = 1)p(Ci = 1|Ei = 1) = aisi.

Иначе говоря, оценкой релевантности служит вероятность того,что пользователь удовлетворился полученной информацией послепросмотра ссылки. Для оценки параметров авторы используют ал-горитм EM, а параметр γ считают фиксированным.

4.3. Модель TCM (Task-Centric Click Model).В модели TCM, предлагаемой в работе [35], поведение поль-

зователя рассматривается более широко – на уровне всей поиско-вой сессии. Поведение пользователя теперь представляется на двухразных уровнях: на уровне сессии и на уровне одного запроса

Пользователь вводит запрос. Далее, если запрос соответствуетего потребностям, он просматривает выдачу и может ввести новыйзапрос или прекратить поиск. Если выдача по запросу не удовле-творила его, он не сделает ни одного клика и переформулируетсвой запрос. Вводятся новые бинарные случайные величины: Mравна 1, когда запрос соответствует потребностям пользователя, Nравна 1, если пользователь продолжает поиск. Так как мы наблю-даем сессию целиком, то по её завершении величина N являетсянаблюдаемой. На рис. 4 поведение пользователя в модели TCM науровне сессии представлено в виде блок-схемы.

Так как в поисковой сессии несколько запросов, связанныхмежду собой, один и тот же документ может быть показан в вы-даче по нескольким запросам (возможно, на разных позициях).Вполне логично, что если документ был показан пользователю неодин раз, доля кликов на него после первого показа снижается; этоже подтверждается и более подробными исследованиями [35]. Что-бы отразить эту зависимость, в модель на уровне запроса вводит-ся дополнительная бинарная случайная величина F – «свежесть»документа. Теперь для каждого документа в выдаче пользовательпросматривает его описание, а если он считает, что выдача не соот-ветствует его потребностям или документ уже был показан ранее,то пропускает его. В противном случае всё определяется релевант-ностью документа. На рис. 5 это представлено в виде блок-схемы.

Теперь представим ТСМ в виде байесовской сети (рис. 6). Наэтом рисунке используется нотация плашек (plate notation): пря-моугольниками объединены повторяющиеся фрагменты графа, пе-ременные в них индексированы, диапазон их указан в углу плаш-

Рис. 4: Модель TСМ: блок-схема уровня сессии

Рис. 5: Модель TСМ: блок-схема уровня пользователя

Рис. 6: Модель TCM: байесовская сеть

ки. Индекс i пробегает все запросы в текущей сессии, индекс j –документы, выданные по каждому запросу. Величины M , N и Fмы уже описали, E, C и R имеют прежний смысл. ПеременнаяH нужна для связи одинаковых документов, показанных по раз-ным запросам: «свежесть» документа зависит не просто от того,выдавала ли его уже поисковая систем ранее, а от факта просмот-ра его пользователем. Индексы (i′, j′) обозначают номер запроса ипозиции предыдущего показа документа c позиции (i, j).

Выпишем теперь явно все условные вероятности:

p(Mi = 1) = α1,

p(Ni = 1|Mi = 1) = α2,

Mi = 0⇒ Ni = 1,

p(Fi,j = 1|Hi,j = 1) = α3,

p(Ei,j = 1) = βi,j ,

p(Ri,j = 1) = ri,j ,

Hi,j = 0⇒ Fi,j = 1,

Hi,j = 0⇔ Hi′,j′ = 0,Ei′,j′ = 0,

Ci,j = 1⇔Mi = 1,Ei,j = 1,Ri,j = 1,Fi,j = 1.

Для каждой пары запрос-документ параметр ri,j – релевант-ность документа. Параметр βi,j сходен с «привлекательностью» измодели DBN, однако здесь он влияет не на вероятность клика, ана вероятность просмотра; α1, α2 и α3 являются глобальными па-раметрами поведения пользователя.

Как видно из описания, вид графа (наличие некоторых рёбер)зависит от конкретной сессии. Наличие неопределённого числациклов затрудняет получение оценок параметров, и чтобы с этимсправиться, авторы [35] предлагают подход, похожий на ССМ –предполагают дополнительные условные независимости между пе-ременными, получая после этого приближённый вариант ЕМ-алго-ритма.

4.4. Модель SCM (Session Click Model)Эта модель и вывод на ней подробно описаны в нашей предыду-

щей работе [38], поэтому здесь для полноты картины ограничим-ся только кратким описанием. За основу модели SCM была взятамодель ТСМ, однако на уровне запроса в SCM используется мо-дель DBN, а переменные, отражающие свежесть ссылок, берутсяиз предыдущих выдач как наблюдаемые величины (если документбыл показан ранее, это отражено в логах и можно использоватькак простую бинарную величину). Таким образом, получается мо-дель, структура графа которой не зависит от конкретной сессии,а лишь от числа запросов в сессии.

На рис. 7 приведена предлагаемая модель SCM (session clickmodel) в виде байесовской сети. Назначение всех участвующих вмодели случайных величин (все величины бинарные) описано в

Рис. 7: Модель SCM: байесовская сеть

таблице 1. Ниже мы приводим набор условных вероятностей, за-вершающий формальное определение модели.

P (Mi = 1) =α1,

P (Ni = 1|Mi = 1) =α2,

P (Ni = 1|Mi = 0) =1,

P (Fi,j = 1|Hi,j = 1) =α3,

P (Fi,j = 1|Hi,j = 0) =1,

P (Ai,j = 1) =ai,j ,

Ei,j−1 = 0⇒Ei,j = 0,

Si,j−1 = 1⇒Ei,j = 0,

ОпределениеNi Продолжает ли пользователь поиск. Наблюдаемая

величинаMi Соответствует ли выдача по запросу i информаци-

онным потребностям пользователяEi,j Просмотрел ли пользователь описание документа

(i, j )Ci,j Клик на документ (i,j ). Наблюдаемая величинаAi,j Привлёк ли документ внимание пользователяSi,j Удовлетворяет ли документ (i,j ) информационные

потребности пользователяHi,j Был ли ранее в этой сессии показан документ (i, j )Fi,j Считает ли пользователь документ (i,j ) «свежим»

Таблица 1: Случайные величины модели SCM

Ei,j = 1⇒Ei,j−1 = 1,Si,j−1 = 0,

P (Si,j = 1|Ci,j = 1) =si,j ,

P (Si,j = 1|Ci,j = 0) =0,

Ci,j = 1⇔Mi = 1,Ei,j = 1,Si,j = 1,Fi,j = 1.

Параметр ai,j определяет привлекательность документа, а точ-нее, соответствующего ему элемента на странице выдачи. Этотпараметр влияет на вероятность клика. Параметр si,j можно ин-терпретировать как пертинетность документа: если запрос соот-ветствовал потребностям пользователя, и пользователь закончилпросмотр выдачи кликом по этому документу, значит, документоказался ему полезным.

В качестве оценки релевантности документа, как и в DBN, бу-дем использовать

ri,j = P (Si,j = 1|Ei,j = 1,Mi = 1, Fi,j = 1) =

= P (Si,j = 1|Ci,j = 1)P (Ci,j = 1|Ei,j = 1,Mi = 1, Fi,j = 1) =

= ai,jsi,j .

Модель имеет три глобальных параметра поведения пользователя:α1, α2 и α3.

5. Совмещение нескольких признаков для ранжирова-ния

5.1. Введение.Ранжирующая функция для поиска Okapi BM25 [21] была од-

ним из первых способов реализации вероятностной модели поиска,однако уже она использовала несколько признаков документа изапроса, такие, как длина документа и запроса в словах, частотавхождения текста запроса в документ и т.д. Эта функция былапостроена вручную: конкретная формула и числовые значения па-раметров были получены авторами исходя из семантики использо-ванных признаков.

На сегодняшний день многими авторами предлагается большоеколичество признаков запроса и документа, которые могут бытьполезны для ранжирования: доля входящих и исходящих ссылокдокумента, длина URL-адреса, возраст документа и многие дру-гие. Любая модель поведения пользователя из тех, что мы рас-смотрели выше, тоже на самом деле добавляет ещё один признакдля функции ранжирования. Современные поисковые системы ис-пользуют до нескольких сотен различных признаков для ранжиро-вания, поэтому ручное построение ранжирующей функции простоневозможно.

На сегодняшний день наиболее популярным является метод по-строения ранжирующей функции на основе машинного обучения.Пары (запрос, документ) представляются в системе векторами сво-их признаков, а на основе оценок экспертов формируется трени-ровочное множество, с помощью этой информации ранжирующаяфункция строится автоматически на основе того или иного мето-да машинного обучения. В зависимости от типа оценок, которыепредоставили эксперты, различают несколько подходов.

1. Поточечный (pointwise). Каждой паре (запрос-документ) по-ставлена в соответствие своя оценка. Если оценка категори-альная, то получается задача классификации – нужно дляпар (запрос-документ) предсказать класс; если оценка чис-ленная – задача регрессии.

2. Попарный (pairwise). Для пар документов, соответствующиходному запросу, эксперты дают «парные предпочтения» – ка-кой документ более релевантен запросу. В рамках этого под-хода работают алгоритмы RankNet [4] и RankBoost [13].

3. Списочный (listwise). Эксперты сами ранжируют несколь-ко документов, соответствующих каждому запросу. Упоря-дочение, получаемое с помощью построенной ранжирующейфункции, должно согласовываться с экспертным. Примеромприменения этого подхода является LambdaRank [5, 6, 9].

Все крупные поисковые системы (Google, Yandex, Yahoo, Bing идр.) так или иначе используют ранжирующие функции на основеметодов машинного обучения, хотя для самых популярных запро-сов построение ранжирования часто на практике делается вручную(распределение частоты запросов таково, что значительную долювсех запросов составляют буквально считанные тысячи запросов,и на них, конечно, поисковая система должна работать идеально).

В этом разделе мы рассматриваем несколько методов построе-ния ранжирующей функции по множеству признаков.

5.2. Деревья принятия решенийДеревья принятия решений применяются в машинном обуче-

нии для построения алгоритмов классификации или регрессии наоснове нескольких признаков. Пусть входные данные представля-ются векторами числовых признаков (x1,...,xn). Тогда дерево при-нятия решений – это бинарное дерево, в листьях которого хранятсязначения целевой переменной y (для классификации – номер клас-са, для регрессии – значение функции). В остальных узлах деревахранится номер признака k и число z из диапазона значений этогопризнака. Классификация нового объекта осуществляется следу-ющим рекурсивным алгоритмом обхода: сравнивать значение k-гопризнака нового объекта с z текущей вершины, если меньше – пе-реходить к правому поддереву, иначе – к левому, если попали влист – вернуть соответствующее значение целевой переменной.

Построение дерева по набору тренировочных примеров T ={(x1,...,xn,y)} происходит рекурсивно от корня: выбирается номерпризнака и значение z, а затем множество примеров разбивается надва согласно значениям k-го признака, и так рекурсивно строятсяподдеревья, пока все примеры в листе не будут иметь одинаковоезначение целевой переменной (этот процесс всегда закончится, хо-тя бы одноэлементным множеством). Основной вопрос здесь в том,как выбрать очередной атрибут и значение для разбиения (splittingcriterion)? Распространение получили следующие критерии.

1. Для классификации на k классов C1,...,Ck.

(a) Прирост информации

Info(T ) = −k∑

i=1

freq(Ci,T )

|T |log2

(freq(Ci,T )

|T |

),

где freq(Ci,T ) – число тренировочных примеров из клас-са Ci. Эта величина в терминологии теории информацииназывается энтропией множества T . Её можно интерпре-тировать как среднее количество информации, необхо-димое для однозначного определения класса одного при-мера (использование двоичного алгоритма даёт оценкув битах). Оптимальным разбиением будет такое, котороемаксимизирует следующее выражение:

InfoGain(T,xk,z) = Info(T )− |TL||T |

Info(TL)−|TR||T |

Info(TR),

где TL,TR – множества примеров, оказавшихся при та-ком разбиении в левом и правом поддеревьях соответ-ственно. Возможные значения z для xk можно искатьследующим образом: отсортировать множество T по зна-чениям xk и брать середины промежуточных интервалов(фактически медиану).

(b) Индекс Джини

Gini(T ) = 1−k∑

i=1

(freq(Ci,T )

|T |

)2

;

в предыдущих обозначениях оптимальное разбиение те-перь максимизирует следующее выражение:

GiniGain(T,xk,z) = Gini(T )−|TL||T |

Gini(TL)−|TR||T |

Gini(TR).

Выбор z – как в предыдущем случае.

2. Для задачи регрессии обычно используют среднеквадратич-ное отклонение в качестве критерия разбиения. Разбиениемаксимизирует следующее выражение:

S(T,xk,z) = se(T )− se(TL) + se(TR),

где se(T ) = 1|T |∑

i∈T (yi −m(T ))2 и m(T ) = 1|T |∑

i∈T yi. Вы-бор z осуществляется аналогично предыдущим пунктам. Ре-курсивный алгоритм построения дерева в этом случае мож-но останавливать, когда se(T ) станет меньше определенногопорога. Тогда значением целевой переменной в листе будетсреднее по оставшимся там примерам.

В конкретных алгоритмах классификации и регрессии на ос-нове деревьев принятия решений помимо критериев разбиения ис-пользуются различные модификации самой рекурсивной процеду-ры построения. Так, алгоритм классификации ID3 [31] работаеттолько с категориальными признаками и поэтому разбиения дере-ва не бинарные, а по всем значениям соответствующего атрибута.Алгоритм С4.5 [32] является его развитием и позволяет исполь-зовать дискретные и непрерывные числовые атрибуты а так жепропуски в данных (когда для некоторых примеров известны зна-чения не всех признаков). Алгоритм CART [3], применимый какдля классификации, так и для регрессии, использует технику от-сечения (pruning) поддеревьев для уменьшения размера получив-шегося дерева.

Алгоритмы на основе деревьев принятия решений обладают ря-дом достоинств:

(1) не требуют подготовки входных данных;

(2) полученное дерево имеет ясную и наглядную интерпретацию;

(3) позволяют использовать как категориальные, так и числовыепризнаки;

(4) допускают эффективный алгоритм применения полученной мо-дели (спуск по дереву).

К их недостаткам можно отнести следующее:

1. задача построения оптимального дерева принятия решенийявляется NP-полной [38];

2. у изолированного полного дерева очень низкая обобщающаяспособность, необходимо использовать приёмы на основе усе-чений [37]; кроме того, решение неустойчиво: при добавлениинебольшого числа новых тренировочных примеров структураполучаемого дерева может кардинально измениться;

3. не все свойства и взаимосвязи атрибутов могут быть выра-жены в структуре дерева (например, чётность значений при-знаков и связи отношений атрибутов типа XOR).

Ещё одной важной особенностью деревьев принятия решенийявляется возможность оценить предсказательную способность(predictor importance) признаков: какие признаки наиболее «важ-ны» для принятия верного решения, а какие и вовсе не несут полез-ной информации. Один из возможных способов определить пред-сказательную способность (на примере деревьев регрессии) таков:

imp(xk) =1

|T |∑

v∈Vxk

S(Tv,xk,z),

где Vxk– множество вершин, разбиение в которых происходит по

признаку xk, Tv – поддерево с корнем в v. Выражения под зна-ком суммы уже были подсчитаны при построении дерева, поэто-му дополнительных вычислений не требуется. Видно, что если понекоторому признаку разбиений не производилось, то его предска-зательная способность равна 0.

5.3. Усиление (boosting)Деревья принятия решений легки в построении, но обладают

своими недостатками. Возникает идея использовать несколько де-ревьев так, чтобы их совместная эффективность увеличилась. Ал-горитмы машинного обучения, направленные на улучшение рабо-ты «простых» алгоритмов классификации и регрессии, получилиобщее название boosting (усиление). Рассмотрим это метод на при-мере регрессии, следуя [15].

Рассмотрим задачу минимизации функции нескольких пере-менных без ограничений: minx∈Rd F (x). Для её решения можноприменить метод градиентного спуска, начиная с некоторого x0:xk+1 = xk − αk∇F (xk).

Этот алгоритм не всегда находит глобальный минимум функ-ции, и его можно считать «жадным»: на каждой итерации делает-ся локально оптимальный шаг в направлении, противоположномградиенту.

Теперь вернёмся к задаче регрессии. По набору тренировочныхпримеров T = {(xi,yi)}Ni=1 мы хотим построить такую функцию h,что h(xi) ≈ yi, i = 1...N (здесь мы считаем xi вектором числовых

признаков). Используя подход минимизации эмпирического рис-ка [18], будем искать функцию h в некотором классе H функций,минимизируя функцию потерь (loss function); в качестве функциипотерь возьмём для примера сумму квадратов отклонений:

minh∈H

L(h) = minh∈H

1

2

N∑i=1

(yi − h(xi)).

Теперь можно было бы применить метод градиентного спуска впространстве функций H:

hk+1(x) = hk(x)− αk∇L(hk(x)).

Однако мы не можем вычислить ∇L во всех точках x (в общемслучае это должна быть функция от x), а лишь в конечном числеточек:

∇L(hk(xi)) = −(yi − hk(xi)), i = 1...N.

Основная идея усиления в том, чтобы на каждой итерации на-ходить аппроксимацию градиента функции потерь по имеющим-ся значениям в точках тренировочного набора. Рассмотренные впредыдущем разделе деревья принятия решений можно использо-вать как класс аппроксимирующих функций. Приведённый нижеалгоритм из [15] использует деревья решений для регрессии дляаппроксимации градиента квадратичной ошибки. Таким образом,получаемая функция h будет являться линейной комбинацией де-ревьев регрессии.

Алгоритм Gradient BoostВход: T = {(xi,yi)}Ni=1

Выход: такая h, что h(xi) ≈ yi, i = 1...NАлгоритм

1. h0(x) = 1/N∑N

i=1 yi.

2. Повторять M раз:

(a) rik = ∇L(hk(xi));(b) построить дерево регрессии tk по тренировочному мно-

жеству {(xi,rik)}Ni=1;

(c) hk+1(x) = hk(x)− η(tk(x)).

3. h(x) = hM (x).

Выбор параметров η иM осуществляется с помощью стандарт-ной в машинном обучении техники: используется отдельное вали-дационное множество примеров, на котором оценивается поведе-ние получаемой функции при изменении параметров (например,величина ошибки).

Усиление деревьев решений стало стандартом де-факто для ре-шения задачи ранжирования, и многие современные алгоритмы нанём основаны (в том числе упомянутые в начале этого раздела).

5.4. Построение ранжирующей функцииИспользуя изложенные в предыдущих двух разделах методы,

можно было бы строить ранжирующую функцию для документовпо признакам запроса и документа, считая целевой переменнойоценку эксперта. Однако такой подход даёт слабые результаты,преимущественно потому, что меры качества ранжирования счи-таются и усредняются по запросам, а не по всем возможным парамзапроса и документа.

Основным направлением в области применения машинного обу-чения к задаче ранжирования является использование целевыхмер качества (таких, как NDCG) в ходе минимизации эмпириче-ского риска. Одним из способов реализации это приёма являет-ся добавление специального признака «идентификатор запроса»к вектору признаков пары (запрос, документ). Примером можетслужить алгоритм NDCGBoost [40].

Приведём пример построения ранжирующей функции, осно-ванный на [41]. Пусть дано тренировочное множество

T = {(qidi,xi,ri)}Ni=1,

где qidi – идентификатор запроса, xi –вектор признаков пары (за-прос, документ), ri – экспертная оценка релевантности. Перейдёмот оценок релевантности отдельных документов к так называемым«парным предпочтениям». Для тренировочных примеров с одина-ковыми qid возьмём все пары документов и посчитаем разностьоценок релевантности для них. Получим новое множество трени-ровочных примеров:

T ′k = {(qidk,xi,xj ,ri − rj)}i,j∈D(qidk), T ′ =⋃k

T ′k.

Теперь можно рассматривать задачу регрессии на парах докумен-тов – целевой переменной будет разность оценок их релевантно-сти: если она больше 0, то первый документ должен распола-гаться выше в ранжированном списке, иначе – ниже. Применяяк этой задаче алгоритм Gradient Boost, мы получим некоторуюфункцию h(qid,x,y). Теперь нам нужно вернуться к ранжирова-нию отдельных документов. Это можно сделать следующим обра-зом: g(qid,x) =

∑i h(qid,x,yi), где суммирование ведётся по всем

парам документов для запроса qid, в которых первым элементомпары выступает документ x.

Чем же был обусловлен выбор парных предпочтений и почемуследует ожидать, что этот подход даст лучшее качество ранжиро-вания, чем построение ранжирующей функции по исходному тре-нировочному множеству? Дело в том, что если рассматривать AUCв качестве меры качества, можно показать, что эта величина бу-дет равна доле инверсий в ранжированном списке (число пар, длякоторых истинное значение релевантности документа ранжирован-ного выше, меньше, чем ранжированного ниже). Таким образом,если оценки экспертов являются бинарными, можно считать, чтопредлагаемый подход минимизирует AUC как эмпирический риск.

6. Заключение.В этой работе мы представили обзор вероятностных моделей

поведения пользователя системы интернет-поиска. Эти модели –ещё одно подтверждение «интуитивности интерфейса» вероятност-ных графических моделей, ведь разработчики моделей поведенияпользователя обычно начинают с простых и логичных предполо-жений об этом поведении, затем формализуют их в виде графи-ческой вероятностной модели, а потом остаётся только подобратьалгоритм приближённого вывода (или воспользоваться алгорит-мом передачи сообщений, если модель не содержит циклов). Мож-но ожидать появление и новых моделей поведения пользователей –этому способствует то, что задача улучшения качества ранжиро-вания представляет огромный практический интерес для крупныхигроков на рынке поисковых систем. Проводятся даже специаль-ные конкурсы, посвящённые ранжированию [48].

Наш обзор был посвящён моделям, которые используют клик-логи поисковой системы; однако ими не исчерпывается всё много-образие возможных подходов. Так, например, в недавней работе [1]предлагается новый подход, позволяющий провести очень хорошо

сфокусированные эксперименты, в которых оценивается, насколь-ко успешен был пользователь в своём поиске, а затем использоватьрезультаты этих экспериментов для улучшения качества ранжи-рования. Мы полагаем, что в этой области исследований можноожидать новых прорывов в самое ближайшее время.

Литература

1. Ageev M., Guo Q., Lagun D., Agichtein E. Find it if you can: a gamefor modeling different types of web search success using interactiondata // Proceedings of the 34th Annual ACM SIGIR Conference.2011. P. 345–354.

2. Bishop C. M. Pattern Recognition and Machine Learning. Springer,2006.

3. Breiman L., Friedman J. H., Olshen R. A., Stone C. T. Classifica-tion and Regression Trees. New York: Chapman & Hall, 1984.

4. Burges C. J., Shaked T., Renshaw E., Lazier A., Deeds M., Hamil-ton N., Hullender G. Learning to rank using gradient descent //Proceedings of the 22nd International Conference on Machine Learn-ing. 2005. P. 89–96.

5. Burges C. J. C. From RankNet to LambdaRank to LambdaMART: An Overview: Tech. rep.: Microsoft Research, 2010.

6. Burges C. J. C., Svore K. M., Bennett P. N., Pastusiak A., Wu Q.Learning to Rank Using an Ensemble of Lambda-Gradient Mod-els // Journal of Machine Learning Research. 2011. Vol. 14. P. 25–35.

7. Chapelle O., Zhang Y. A dynamic Bayesian network click modelfor web search ranking // Proceedings of the 18th InternationalConference on World Wide Web. 2009. P. 1–10.

8. Craswell N., Zoeter O., Taylor M., Ramsey B. An experimentalcomparison of click position-bias models // Proceedings of the 1st

ACM International Conference on Web Search and Data Mining.2008. P. 87–94.

9. Donmez P., Svore K. M., Burges C. J. C. On the local optimalityof LambdaRank // Proceedings of the 32nd Annual ACM SIGIRConference. ACM, 2009. P. 460–467.

10. Dupret G., Liao C. A model to estimate intrinsic document rel-evance from the clickthrough logs of a web search engine // Pro-ceedings of the 3rd ACM International Conference on Web Searchand Data Mining. 2010. P. 181–190.

11. Dupret G., Piwowarski B. A user browsing model to predict searchengine click data from past observations // Proceedings of the 31st

Annual ACM SIGIR Conference. 2008. P. 331–338.

12. Fawcett T. An introduction to ROC analysis // Pattern Recogni-tion Letters. 2006. Vol. 27, N. 8. P. 861–874.

13. Freund Y., Iyer R., Schapire R. E., Singer Y. An efficient boostingalgorithm for combining preferences // Journal of Machine LearningResearch. 2005. Vol. 4. P. 933–969.

14. Frey B. J. Extending Factor Graphs so as to Unify Directed andUndirected Graphical Models // Proceedings of the 19th Conferenceon Uncertainty in Artificial Intelligence. Acapulco, Mexico: MorganKaufmann Publishers Inc., 2003. P. 257–264.

15. Friedman J. Greedy function approximation: a gradient boostingmachine // Annals of Statistics. 2001. Vol. 29. P. 1180.

16. Guo F., Liu C., Kannan A., Minka T., Taylor M., Wan Y., Falout-sos C. Click chain model in web search // Proceedings of the 18th

International Conference on World Wide Web. 2009. P. 11–20.

17. Guo F., Liu C., Wang Y.-M. Efficient multiple-click models in websearch // Proceedings of the 2nd ACM International Conference onWeb Search and Data Mining. 2009. P. 124–131.

18. Hastie T., Tibshirani R., Friedman J. Elements of StatisticalLearning. Springer, New York, 2008.

19. Jarvelin K., Kekalainen J. Cumulated gain-based evaluation of IRtechniques // ACM Transactions on Information Systems. 2002.Vol. 20, N. 4. P. 422–446.

20. Joachims T., Granka L. A., Pang B., Hembrooke H., Gay G. Ac-curately Interpreting Clickthrough Data as Implicit Feedback //Proceedings of the 28th Annual ACM SIGIR Conference. 2005.P. 154–161.

21. Jones K. S., Walker S., Robertson S. E. A Probabilistic Model ofInformation Retrieval: Development and Comparative Experiments(parts 1 and 2) // Information Processing and Management. 2000.Vol. 36, N. 6. P. 779–840.

22. Kschischang F. R., Frey B. J., Loeliger H.-A. Factor Graphs andthe Sum-Product Algorithm // IEEE Transactions on InformationTheory. 2001. Vol. 47, N. 2. P. 498–519.

23. Ling C. X., Huang J., Zhang H. AUC: a Statistically Consistentand more Discriminating Measure than Accuracy // Proceedings ofthe International Joint Conference on Artificial Intelligence 2003.2003. P. 519–526.

24. MacKay D. J. Information Theory, Inference and Learning Algo-rithms. Cambridge University Press, 2003.

25. Manning C. D., Raghavan P., Schutze H. Introduction to Infor-mation Retrieval. Cambridge University Press, 2008.

26. Minka T. Expectation Propagation for approximate Bayesian in-ference // Proceedings of the 17th Conference on Uncertainty inArtificial Intelligence / Ed. by J. S. Breese, D. Koller. San Francis-co, CA: Morgan Kaufmann Publishers Inc., 2001. P. 362–369.

27. Minka T. A family of algorithms for approximate Bayesian infer-ence: Ph.D. thesis / Massachusetts Institute of Technology. 2001.

28. Pearl J. Probabilistic reasoning using graphs // Uncertainty inKnowledge-Based Systems / Ed. by B. Bouchon, R. R. Yager.Springer-Verlag, 1987. P. 201–202.

29. Pearl J. Probabilistic Reasoning in Intelligent Systems: Networksof Plausible Inference. NY etc.: Morgan Kaufmann, 1994.

30. Prince S. Computer Vision: Models, Learning, and Inference.Cambridge University Press, 2012.

31. Quinlan J. R. Induction of Decision Trees // Machine Learning.1986. Vol. 1, N. 1. P. 81–106.

32. Quinlan J. R. C4.5: Programs for Machine Learning. San Francis-co: Morgan Kaufmann, 1993.

33. Richardson M., Dominowska E., Ragno R. Predicting clicks: esti-mating the click-through rate for new ads // Proceedings of the 16th

International Conference on World Wide Web. 2009. P. 521–530.

34. Robertson S. E. Probability ranking principle in IR // Journal ofDocumentation. 1977. Vol. 33, N. 4. P. 294–304.

35. Zhang Y., Chen W., Wang D., Yang Q. User-click modeling forunderstanding and predicting search-behavior // Proceedings ofthe 17th ACM SIGKDD International Conference on KnowledgeDiscovery and Data Mining. ACM, New York, NY, USA, 2011.P. 1388–1396.

36. Заболотский В. П., Юсупов Р. М. Основные проблемы устой-чивости перехода к информационному обществу // Труды СПИ-ИРАН. 2002. Т. 1, № 1. С. 13–26.

37. Николенко С. И., Тулупьев А. Л. Самообучающиеся системы.М.: МЦНМО, 2009. 288 с.

38. Николенко С. И., Фишков А. А. SCM: новая вероятностная мо-дель поведения пользователей интернет-поиска // Труды СПИ-ИРАН. 2012.

39. Сироткин А. В. Байесовские сети доверия: дерево сочлененийи его вероятностная семантика // Труды СПИИРАН. 2006. Т. 1,№ 3. С. 228–239.

40. Сироткин А. В. Вычислительная сожность алгоритмов ло-кального апостериорного вывода в алгебраических байесовскихсетях // Труды СПИИРАН. 2011. С. 188–214.

41. Сироткин А. В., Тулупьев А. Л. Локальный априорный выводв алгебраических байесовских сетях: комплекс основных алго-ритмов // Труды СПИИРАН. 2007. № 5. С. 100–111.

42. Тулупьев А. Л., Николенко С. И., Никитин Д. А., Сирот-кин А. В. Синтез апостериорных оценок истинности суждений винтегрированных базах знаний: детерминированный вариант //Известия высших учебных заведений: Приборостроение. 2006.№ 11. С. 35–39.

43. Тулупьев А. Л., Николенко С. И., Сироткин А. В. Байесовскиесети: логико-вероятностный подход. СПб.: Наука, 2006. 608 с.

44. Тулупьев А. Л., Николенко С. И., Сироткин А. В. Синтез апо-стериорных оценок при поступлении свидетельств с неопреде-ленностью в интегрированную систему знаний о неточных ве-роятностях // Известия высших учебных заведений: Приборо-строение. 2006. № 11. С. 39–44.

45. Тулупьев А. Л., Сироткин А. В., Николенко С. И. Синтез со-гласованных оценок истинности утверждений в интеллектуаль-ных информационных системах // Известия высших учебныхзаведений: Приборостроение. 2006. № 7. С. 20–26.

46. Тулупьев А. Л., Сироткин А. В., Николенко С. И. Байесов-ские сети доверия: логико-вероятностный вывод в ациклическихнаправленных графах. СПб.: Изд-во С.-Петербургского ун-та,2009. 400 с.

47. Яндекс. Поиск в интернете: что и как ищут пользователи.Информационный бюллетень «Яндекс», http://download.yandex.ru/company/yandex_search_autumn_2008_ru.pdf. 2008.

48. Яндекс. Конкурс «Интернет–математика».http://imat-relpred.yandex.ru/. 2011.

Николенко Сергей Игоревич — к.ф.-м.н.; научный сотрудник лабораторииматематической логики ПОМИ РАН, доцент кафедры математических и ин-формационных технологий, старший научный сотрудник проблемной лабора-тории вычислительной биологии СПбАУ НОЦНТ РАН; [email protected];СПбАУ НОЦНТ РАН, ул. Хлопина, д. 8, корп. 3, г. Санкт-Петербург, 194021,РФ; р.т. +7(812)297-2145, факс +7(812)448-6998.Sergey I. Nikolenko — Ph.D.; Researcher at Steklov Mathematical Institute,Adjunct Prof. at the Chair of Mathematical and Information Technologies, SeniorResearcher at the Laboratory of Algorithmic Biology at St. Petersburg Academic

University; [email protected]; St. Petersburg Academic University, ul. Khlo-pina, d. 8, korp. 3, St. Petersburg, 194021, Russia; office phone +7(812)297-2145,fax +7(812)448-6998.Фишков Александр Александрович — студент Санкт-ПетербургскогоГосударственного Политехнического Университета; [email protected];СПбГПУ, Политехническая, 29, 195251, Санкт-Петербург, РФ; р.т. +7(812)297-2095, факс +7(812)552-6080. Научный руководитель – С.И. Николенко.Alexander Fishkov — M.Sc. student at St. Petersburg Polytechnical University;[email protected]; St. Petersburg Polytechnical University, ul. Polytechniches-kaya, d. 29, St. Petersburg, 195251, Russia; office phone +7(812)297-2095, fax+7(812)552-6080. Advisor – S.I. Nikolenko.Поддержка исследований. Работа была поддержана грантами РФФИ 11-01-00760-а и 11-01-12135-офи-м-2011, грантом Президента РФ для молодыхкандидатов наук МК-6628.2012.1, грантом Президента РФ для ведущих науч-ных школ НШ-3229.2012.1 и Федеральной целевой программой «Научные инаучно-педагогические кадры инновационной России» за 2009–2013 гг.Рекомендовано кафедрой МиИТ СПбАУ НОЦНТ РАН, зав. лаб. ОмельченкоА.В., д.ф.-м.н.Статья поступила в редакцию ???.

РЕФЕРАТ

Николенко С.И., Фишков А.А. Обзор моделей поведения пользователейдля задачи ранжирования результатов поиска.

Модели поведения пользователей – одно из основных направленийисследований в области улучшения интернет-поиска; это обычно вероят-ностные модели, обучающиеся из данных о пользовательских действи-ях (click logs). Мы представляем обзор современных моделей поведенияпользователей, а также рассказываем о том, как модели поведения ком-бинируются с другими признаками в функции ранжирования.

Сначала в работе вводятся основные принципы информационногопоиска и место вероятностных моделей в информационном поиске. Мынапоминаем такие основные понятия информационного поиска, как ре-левантность и пертинентность, а также рассматриваем наиболее частоприменяющиеся критерии оценки качества поиска: NDCG (normalizeddiscounted cumulative gain) и AUC (area under [ROC] curve).

Затем рассматриваются основные гипотезы о поведении пользовате-ля, из которых исходят создатели моделей: гипотеза просмотра и каскад-ная гипотеза; мы иллюстрируем эти гипотезы при помощи относительнопростых вероятностных моделей CM (cascade model), DCM (dependentclick model) и UBM (user browsing model).

Основное содержание работы посвящего более сложным вероятност-ным моделям поведения пользователя, представленным в виде графи-ческих вероятностных моделей. Мы рассматриваем модели CCM (clickchain model), DBN (dynamic Bayesian network), TCM (task-centric clickmodel) и недавно предложенную модель SCM (session click model).

Наконец, в последней части обзора мы описываем, как именно эти идругие модели можно внедрить в реальную поисковую систему, т.е. какиз множества признаков (в том числе результатов различных моделейповедения пользователя) можно обучить единую ранжирующую функ-цию; рассматриваются алгоритмы усиления (boosting), в том числе гра-диентное усиление, предназначенное для задач регрессии и применённоек ранжированию в алгоритме LambdaRank.

SUMMARY

Nikolenko S.I., Fishkov A.A. A survey of user behaviour models for searchresults ranking.

User behaviour models represent one of the most important tioucs inresearch directed at improving web search results; they are usually proba-bilistic models learned from logs of user actions (click logs). We present asurvey of modern user behaviour models and review how behaviour modelsare combined with other features in the ranking function.

At first, we introduce basic principles of information retrieval and howprobabilistic models enter this field. We remind such basic notions of infor-mation retrieval as relevance and pertinence and also consider most popularmetrics for evaluating search quality, namely NDCG (normalized discountedcumulative gain) and AUC (area under [ROC] curve).

Then we consider the basic hypotheses concerning user behaviour thatuser behaviour models rely upon, namely the examination hypothesis andthe cascade hypothesis. We illustrate these hypotheses with relatively simpleprobabilistic models CM (cascade model), DCM (dependent click model),and UBM (user browsing model).

The main part of this work is devoted to more complex probabilistic userbehaviour models usually represented as probabilistic graphical models. Weconsider the following models: CCM (click chain model), DBN (dynamicBayesian network), TCM (task-centric click model), and the recently pro-posed SCM (session click model).

Finally, in the last part of this survey we study how these and othermodels can be implemented in a real-life search engine, that is, how a setof features (including the predictions of various user behaviour models) canbe incorporated to learn a single ranking function. We consider boostingalgorithms, including gradient boosting intended for regression problemsand applied to ranking in the LambdaRank algorithm.

ОБЗОР МОДЕЛЕЙ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ДЛЯ...

Documents

Transcript of ОБЗОР МОДЕЛЕЙ ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ ДЛЯ...