Семантическая классификация изображений, осень 2010:...
Transcript of Семантическая классификация изображений, осень 2010:...
Поговорим о признаках
Задача: каждый фрагмент изображения описать набором признаков чтобы можно было надежно сравниватьпризнаков, чтобы можно было надежно сравнивать фрагменты (находить похожие), использовать для распознавания и т.д.р
Tff )(f jnnn ff ),,( ,1, L=f
Дескрипторы должны быть достаточно специфичны, локальны и не очень сложны в вычислениилокальны, и не очень сложны в вычислении
• Интуитивно понятно, что едва ли неИнтуитивно понятно, что едва ли не основная информация в картинке содержится как раз в краях (границах)
Ко а ое ре с а е е• Компактное представление
• Рисунок художника тонкими линиями может передать почти всю семантическую информацию обсемантическую информацию об объектах• Кроме цвета, конечно!
Source: D. Lowe
Фильтры Габора
)sin()cos(' θθ yxx +=)()i (' θθ )cos()sin(' θθ yxy +−=
θ - ориентация
λσγ
- длина волны- сигма гауссиана
γ
ψ
- соотношение размеров (aspect ratio), «эллиптичность фильтра»- сдвиг фазыψ
• 2D фильтр Габора – ядро гауссина, домноженное на синусоиду• Предложены в 1947 Денисом Габором (нобелевским лауреатом),Предложены в 1947 Денисом Габором (нобелевским лауреатом), независимо переоткрыты в 1980 году
Связь со зрением человека
• Похожи на форму рецептивных полей простых• Похожи на форму рецептивных полей простых клеток (simple cells) в визуальной коре мозга человека
J. G. Daugman, “Two-dimensional spectral analysis of cortical receptive field profiles.,” Vision research, vol. 20, no. 10, pp. 847–856, 1980.
J. G. Daugman, “Uncertainty relation for resolution in space, spatial frequency, and orientation optimized by two-dimensional visual cortical filters,” J. Opt. Soc. Am. A, vol. 2, no. 7, pp. 1160–1169, 1985.
Поиск краёв с помощью Габора
• Слева вверху – иероглиф• Слева вверху – иероглиф• 4 справа – применение фильтров Габора с ориентациями 0, 45, 90 и 135 градусовориентациями 0, 45, 90 и 135 градусов
• Слева внизу – совмещение результатов фильтрации
Банки фильтров
• Набор фильтров разного масштаба и б б фориентации образует «банк фильтров»
• Каждый пиксель изображения после обработки банком фильтров даёт вектор признаков
• Этот вектор признаков эффективно описывает локальную текстуру у уруокрестности пикселя
• Активно используется в сегментацииАктивно используется в сегментации, распознавании изображений и т.д.
Дескрипторы• Недостаток точного описания каждого пикселя:
• Небольшой сдвиг приводит к существенному изменению
• Решение: гистограммы
0 2 πSlide by S. Lazebnik
Дескрипторы - градиентыГистограммы градиентов Lowe (SIFT):
Используется 128 значений на точку• Cетка 4*4, 8 значений в гистограммеУстойчив к изменениям освещенности и небольшим сдвигамУстойчив к изменениям освещенности и небольшим сдвигам
David G. Lowe. "Distinctive image features from scale-invariant keypoints.” IJCV 60 (2), pp. 91-110, 2004.
ОриентацияПример: найти локальное направление градиента вокруг
интересной точки
Повернуть фрагмент(ы) так чтобы средний градиент былПовернуть фрагмент(ы) так, чтобы средний градиент был направлен вверх
0 2 π
Дескриптор изображения
TORRALBA, A., MURPHY, K. P., FREEMAN, W. T., AND RUBIN. Context-based vision system for place and object recognition. In ICCV 2003
E. P. Simoncelli and W. T. Freeman. The steerable pyramid: а flexible architecture for multi-scale derivative computation. IEEE Intl. Conf. on Image Processing, 1995.
Дескриптор изображения
Усреднение каждого уровня пирамиды по решетке 4*4
Дескриптор изображения GIST
+Добавление канала цвета дляДобавление канала цвета для более точного описания цветных изображений
James Hays, Alexei A. Efros Scene Completion using Millions of Photographs, SIGGRAPH 2007.
… 200 изображений
Graph cut + Poisson blending
… 200 ближайших
… 200 ближайших
… 200 ближайших
Почему это работает?Почему это работает?
10 ближайших из 20,000 изображений
10 ближайших из 2х миллионов изображений
im2gps
• Собрали 6М картинок из Flikr с проставленными GPS-метками
• Умеем искать похожие изображения в большой базеизображения в большой базе
• Кластер из 400 машин для аннотации всех 6М изображений
• Найдем вот эту картинку:• Найдем, вот эту картинку:
James Hays, Alexei A. Efros im2gps: estimating geographic information from a single image, CVPR 2008.
Найдем теперь такую:
Что мы нашли:
Отображение результатов на карте
200 результатов, кластеризуем и покажем центрыи распределение картинокр р р
im2gps
Категории данных
**** ********** ****** **** ******** **** ****** ** **
******************************
Скорость = 112 м / км
**** ********** ****** **** ******** **** ****** ** **
******************************
Уклон
Ранжирование изображений по уклону (от макс к мин)
Ранжирование по плотности населения
Пустыни
Города и здания
Снег и лед
Саванна
Вода
Sketch2photo
Tao Chen, Ming-Ming Cheng, Ping Tan, Ariel Shamir, Shi-Min Hu Sketch2Photo: Internet Image Montage ACM SIGGRAPH ASIA 2009
Схема метода
• Идея:• Поиск в интернете подходящих для композиции изображенийизображений
• 3000 кандидатов для каждого объекта (выбирается 100)• 1000 кандидатов для фона (выбирается 20)
Выбор кандидатов на фон
• Фильтрация по ряду критериев• Согласование по контентуСогласование по контенту
– Для каждого изображения вычисляется гистограмма в LUV– Все вектора кластеризуются с помощью сдвига среднего– Выбирается самый большой кластер– Качество изображения считается по нормализованному расстоянию
махаланобиса
• Согласование по горизонту– Вычисление горизонта– Отбрасываем изображения со значительным >30% отклонением горизонта
• Чистый (uncluttered) фон– Сегментация– Считаем кол-во сегментов, в выпуклой оболочке объектов для размещения– Добавляем с весом 0.3 к метрике качества
Выбор кандидатов для объектов• Для композиции лучше всего подходят такие изображения
• Один значимый (salient) объект на чистом, простом фоне• Форма значимого объекта похожа на форму целевого • Используем salient-сегментацию
LIU, T., SUN, J., ZHENG, N.-N., TANG, X., AND SHUM, H.-Y.Learning to detect a salient object. In Proc. of CVPR 2007
Выбор кандидатов для объектов (2)• Чистый, простой фон
• Считаем количество сегментов в полосе вокруг й бнайденного значимого объекта
• Отбрасываем изображение, если сегментов больше 10• Уточнение сегментацииУточнение сегментации
• Используем GrabCut (развитие Interactive Graph Cuts) c прямоугольной рамкой для инициализации
• Фильтрация по согласованию контуров• Считаем расстояние с помощью Shape Context
Примеры расчета кандидатов
Moto rider
Red carRed car
Композиция изображений
Примеры композиций разными методами
Ранжирование композиций по качеству
Примеры работы