Я.Субботник, Санкт-Петербург, 3 декабря 2011 года
Руководитель группы асессоров Ольга Мегорская
Несколько интересных фактов об экспертной оценке
Экспертная оценка в Интернете
2
Где это используется? • Интернет-поиск
• Научные исследования
• Интернет-бизнес, в т.ч. спам
3
Асессоры Яндекса
• Релевантность: случайные запросы + документы к ним
• Относительные оценки
• Классификации и пр
4
5
Абсолютная шкала: релевантность документов
6
Абсолютная шкала: картинки/видео
7
Попарное сравнение
Amazon Mechanical Turk CrowdSourcing
8
Amazon Mechanical Turk
9
Итак, факты!
10
№1: Оптимисты VS Пессимисты
11
• Оптимисты: когда сомневаются, завышают оценку
• Пессимисты: когда сомневаются, занижают оценку
• Негативные оценки - чаще верные
12
Пессимизм приходит с опытом
13
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
400 900 1300 1700 2100 2500 2900 2300 3700
Positive
Negative
№2: Дороже – не значит лучше
14
• Две стратегии: «сделать побольше, пока не выгнали» VS «аккуратная работа, долгое сотрудничество»
• Задания с высокой стоимостью привлекают первых
• Поэтому повышение стоимости задания может увеличить скорость его выполнения, но не повышает качество работы
15
№3: Оценки сами говорят о своем качестве
16
• Входной контроль
• Постпроверка случайной выборки заданий
• Предпроверенные задания («голденсет»)
• Ловушки
• Согласованность
• Распределение оценок
Контроль качества: ручной и автоматический
17
Сравнение «лучше/хуже/одинаково»
18
-1
0
1
1 2 3 4 5 6 7 8 9 10 11
Нормальный
-1
0
1
1 2 3 4 5 6 7 8 9 10 11
Хитрый
-1
0
1
1 2 3 4 5 6 7 8 9 10 11 12
Ленивый
№4: Эксперты среди экспертов
19
Если нужны специальные знания, а их нет:
• Если человек плохо разбирается в теме, он склонен завышать оценку
• Релевантным кажется документ, который объясняет смысл запроса, а не отвечает на него
• Релевантность документа часть оценивают по наличию слов запроса
20
[Фортепиано с нуля+нотная грамота](Москва)
21
№5: Чего не могут эксперты
22
23
Вакансия: писатель положительных отзывов
24
• Используют больше превосходных степеней
• Меньше конкретных определений
• Избегают пространственных определений
• Чаще упоминают не относящиеся к самому объекту отзыва вещи
• Чаще упоминают первое лицо
25
Фальшивые отзывы
• Towards Building a High-Quality Workforce with Mechanical Turk, 2010 PaulWais, Shivaram Lingamneni, Duncan Cook, Jason Fennell, Benjamin Goldenberg, Daniel Lubarov, David Marin, and Hari Simons Yelp, Inc
• An Analysis of Assessor Behavior in Crowdsourced Preference Judgments, 2010 Dongqing Zhu and Ben Carterette; Department of Computer & Information Sciences University of Delaware
• The Effect of Assessor Errors on IR System Evaluation, 2010 Ben Carterette, Dept. of Computer and Information Sciences University of Delaware; Ian Soboroff, National Institute of Standards and Technology, Gaithersburg, MD
• How evaluator domain expertise affects search result relevance judgments, 2007 Kenneth A. Kinney, Scott B. Huffman, and Juting Zhai. Google, Inc. Mountain View, CA
• Crowdsourcing Document Relevance Assessment with Mechanical Turk, 2010 Catherine Grady and Matthew Lease, School of Information, University of Texas at Austin
• Finding Deceptive Opinion Spam by Any Stretch of the Imagination, 2011 Myle Ott Yejin Choi Claire Cardie, Department of Computer Science, Cornell University; Jeffrey T. Hancock, Department of Communication, Cornell University
26
Ссылки
Спасибо!
27
Руководитель группы асессоров
Ольга Мегорская
Top Related