Александр Крайнов "Кластеризация дубликатов в...

25
Я.Субботник, Екатеринбург, 2 июля 2011 года Менеджер проектов Александр Крайнов Кластеризация дубликатов в Яндекс.Картинках

description

2 июля 2011, Я.Субботник в Екатеринбурге Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках" О докладе: Как делается поиск дубликатов изображений, для чего это нужно и какие проблемы приходится решать. Легко найти дубликаты среди тысяч картинок. Сложнее – среди миллионов. И совсем трудно –среди миллиардов. Чем выше полнота работы алгоритма, тем больше проблем. Но в то же время полнота кластеризации дубликатов – это основа качества поиска изображений.

Transcript of Александр Крайнов "Кластеризация дубликатов в...

Page 1: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Я.Субботник, Екатеринбург, 2 июля 2011 года

Менеджер проектов Александр Крайнов

Кластеризация дубликатов в Яндекс.Картинках

Page 2: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Хостовые клоны (дубликаты) Картинки в интернете

Тумбнейлерные дубликаты

Джоконда

Джоконда

<Мо?на Ли?за>

(<Джоко?нда>;

итал. La Gioconda,

фр. La Joconde,

полное название -

Портре?т госпожи?

Ли?зы Джоко?ндо,

итал. Ritratto di

Monna Lisa Винчи, находящаяся в

Лувре (Париж,

Франция), одно из

самых известных

произведений живописи

в мире[1][2], которое,

как считается,

dzhokonda_full.jpg

www.louvre.fr Полудубликаты

2

Page 3: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Хостовые и межхостовые дубликаты Картинки в интернете

3

Page 4: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Тумбнейлерные полудубликаты 182 х 264

100 х 100

50 х 50

20 х 20

20 х 20, grayscale 16 х 16, grayscale

4

Page 5: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Как их распознать?

5

Page 6: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Работаем в grayscale

6

Page 7: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Используем фильтр DoG

7

Page 8: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Получаем дескрипторы

8

Page 9: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Находим область пересечения изображний

9

Page 10: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Нечеткие полудубликаты Задача свелась к предыдущей

10

Page 11: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Стадии кластеризации дубликатов

— Распределение на сотни больших пересекающихся групп по удаленности дескрипторов

— Формирование групп кандидатов в дубликаты по близости дескрипторов

— Финальная валидация

11

Page 12: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Проблемы больших групп

12

Page 13: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Кластеризация на большой базе

— Миллионы считаются на обычном компьютере за минуты

— Для сотен миллионов хватает кластера из десятка компьютеров

— Для миллиардов нужна сложная инфраструктура распределенного вычисления

13

Page 14: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Кластеризация на маленькой базе

14

Page 15: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Кластеризация на большой базе

15

Page 16: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Что считать дубликатами?

16

Page 17: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Что считать дубликатами?

17

Page 18: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Что считать дубликатами?

18

Page 19: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Что считать дубликатами?

19

Page 20: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Клоны – кто они для поиска?

Враги?

…или друзья? 20

Page 21: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Описания изображений на сайтах

«запорожец»

15 картинок

«синий запорожец»

10 картинок

«зеленый запорожец»

5 картинок

«лимузин»

10 картинок

Степень правдоподобия описаний:

• запорожец – 0,75 (30 картинок из 40)

• синий – 0,25 (10 картинок из 40)

• лимузин – 0,25

• зеленый – 0,13 (5 картинок из 40)

синий запорожец

запорожец лимузин

Сопоставление описаний

21

Page 22: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Разнообразие выдачи без кластеризации дубликатов

22

Page 23: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Разнообразие выдачи с кластеризацией дубликатов

23

Page 24: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Применение дубликатов

— Разнообразие выдачи

— Точность поиска: • популярные изображения • сопоставление описаний

— Уточнение порно-классификатора

— Улучшение поиска «зеркал» и сайтов-клонов

Для чего используется

24

Page 25: Александр Крайнов "Кластеризация дубликатов в Яндекс.Картинках"

Менеджер проектов

[email protected]

Александр Крайнов