Caltech 101

База данных Caltech 101 — объёмная база данных изображений, предназначенная для отработки и тестирования методов распознавания образов и машинного зрения. Этот набор данных создали в сентябре 2003 года в Калифорнийском технологическом институте Фэй-фэй Ли, Марк Аурелио Ранцато и Петро Перона. В базу данных входит 9146 изображений, распределённые между 101 категориями — лица, часы, муравьи, пианино и прочие. К каждому изображению прилагается аннотация, а также скрипт библиотеки MATLAB для просмотра.

Назначение

[править | править код]

База данных содержит стандартизированные образцы для машинного обучение, чтобы вырабатывать и отлаживать модули компьютерного зрения. Для повышения эффективности требуется большое количество данных. Так например метод распознавания объектов в режиме реального времени, предложенный Паулем Виолой и Майклом Дж. Джонсом обучался на 4916 образцах лиц человека с добавленными метками.[1]

Подготовка изображений — нарезка, приведение к стандартному размеру, маркировка — требуют значительной ручной работы. Кроме того каждые разработчики ориентируются на свои задачи, и оперируют своими данными, отчего становится необходимым сопоставление различных методов и подходов к машинному обучению.[2]

Набор Caltech 101 полезен как альтернатива для тестирования методов распознавания образов и обладает следующими достоинствами:

  • Изображения уже вырезаны и приведены к стандартному размеру.
  • Представлено много категорий, что позволяет апробировать алгоритмы распознавания как отдельных классов, так и классификации.
  • Уже готовы описания объектов.
  • Доступно для общего употребления. Caltech 101 призван как стандарт для сопоставления алгоритмов.

Однако последние исследования[3] показывают, что тесты, основанные на неконтроллируемых естественных образцах (подобно Caltech 101) могут и серьёзно вводить в заблуждение, направляя разработки в неправильное русло.

Набор образцов

[править | править код]

Изображения

[править | править код]

9146 изображений в базе данных разделены на 101 категорию.

В каждой категории имеется от 40 до 800 изображений. Распространённые изображения (например, лица) имеют больше изображений, чем другие.

Размер изображения приблизительно равен 300x200 пикселей. Ориентированные объекты (например мотоциклы, самолёты) смотрят всегда слева направо, а вертикальные структуры (например дома) развёрнуты чтобы быть не по оси.

К каждому изображению прилагается несколько аннотаций — координаты рамки в которой находится объект и детальное описание.

Скрипт библиотеки MATLAB позволяет загрузить изображение и соответствующую аннотацию.

Применения

[править | править код]

Анализ и сравнение

[править | править код]

Преимущества

[править | править код]

Caltech 101 обладает следующими преимуществами:

  • Стандартные размеры и представление изображений:
    • Почти все объекты имеют одни и те же размеры и положение на изображении. Caltech 101 не требует вырезания или скалирования частей изображения.
  • Низкий уровень помех и наложений:
    • Алгоритмы сосредоточены на распознавание уникальных признаков объекта. Однако большинство изображений имеют разный уровень шума на заднем плане, которые могут внести в алгоритм шумы.
  • Детальные аннотации

Недостатки

[править | править код]

Недостатки базы данных Caltech 101[3][4] иногда связывают с сознательными привнесёнными искажениями, а иногда — с ограниченностью набора.

В качестве недостатков отмечают:

  • Данные слишком чистые:
    • Оттого что изображения единообразны по размеру, ориентации и низкому уровню помех, набор не всегда оказывается достаточно репрезентативным для практических надобностей. В реальности изображения бывают более замутнёнными, наложенными друг на друга и варьируемы в размерах, позиции и ориентации. Единообразие объектов через средние параметры по категории являются также нереалистичными.
  • Ограниченное число категорий:
    • Caltech 101 представляет очень малую часть возможных и практических категорий объектов.
  • В некоторых категориях слишком мало образцов:
    • Некоторые категории представлены только 31 изображениями, что недостаточно репрезентативно.
    • То есть . Менее 30 изображений бывает явно недостаточно в ряде приложений.
  • Алиасинг и различные артефакты в процессе манипуляции с изображениями:
    • Некоторые изображения повёрнуты и масштабированы по отношению к их изначальной позиции, негативный эффект могут оказывать artifacts и алиасинг.
  • Caltech 256 — набор данных, созданный в 2007 году. Создатели пытались усовершенствовать представительность Caltech 101. Хотя этот набор более сложный, но его проблемы сопоставимы[3]
    • 30 607 изображений с увеличенным количеством категорий
    • В одной категории как минимум 80 изображений
    • Изображения не ориентированы слева направо
    • Больше вариаций в представлении изображений
  • LabelMe — открытый динамический набор данных, созданный в Лаборатории искусственного интеллекта при Массачусетском технологическом институте (CSAIL). LabelMe использует различные подходы и включает также изображения с различными помехами.
    • 106 739 изображений, 41 724 аннотированных изображения, 203 363 объекта с метками.
    • Пользователи могут добавлять м загружать изображения, а также добавлять метки и аннотации к существующим образцам.
    • LabelMe за счёт своей открытости покрывает большее количество изображений в более широком диапазоне, чем Caltech 101. Однако набор не так консистентен, потому что решения о добавлении и маркировке изображений принимают различные, нередко случайные люди.
  • VOC 2008 — европейский проект сборки изображений для оценки методов категоризации. По сравнению с Caltech 101/256, представлено небольшое количество категорий (около 20). Однако в каждой категории больше изображений.
  • OIRDS (Overhead Imagery Research Data Set[англ.]) — библиотека изображений и аннотаций[5]. OIRDS v1.0 состоит из изображений транспортных средств с аннотацией, помещённой в дополнительную часть изображения. Используются такие категории, как автомобили, грузовики, ваны и т. д. Помимо типовых описаний, OIRDS включает объективную и субъективную статистику, время дня, день и аэросъёмку места изображения, а также субъективная оценка помех, шумов, чёткости и т. д.
    • ~900 изображений, ~1800 аннотированных изображений
    • ~30 аннотаций для каждого объекта
    • ~60 статистических параметров для каждого объекта
    • Широкая вариация контекста
    • Охватывает исключительно пассажирские транспортные средства
  • MICC-Flickr 101 — набор изображений, собранный в Центре медиа-интеграции (MICC), Флорентийского университета в in 2012 году. В основу положен Caltech 101, а данные добавлены через Flickr. MICC-Flickr 101[6] выправляет основные недостатки Caltech 101, в частности вариативность классов, и добавляет социальные аннотации через пользовательские атрибуты. Он содержит те же 101 категорию и может быть использован для сравнения результатов задач категоризации как для ограниченных сценариев, (Caltech 101), так и для условий приближенных к реальности (MICC-Flickr 101) на тех же категориях.
  • ImageNet — проект по созданию базы данных со многими миллионами аннотированными изображениями, рассортированными на тысячи категорий.

Примечания

[править | править код]
  1. P. Viola and M. J. Jones, Robust Real-Time Object Detection, IJCV 2004
  2. Oertel, C., Colder, B., Colombe, J., High, J., Ingram, M., Sallee, P., Current Challenges in Automating Visual Perception. Proceedings of IEEE Advanced Imagery Pattern Recognition Workshop 2008
  3. 1 2 3 Why is Real-World Visual Object Recognition Hard? Pinto N, Cox DD, DiCarlo JJ PLoS Computational Biology Vol. 4, No. 1, e27 Архивировано 15 апреля 2013 года. doi:10.1371/journal.pcbi.0040027
  4. Dataset Issues in Object Recognition. J. Ponce, T. L. Berg, M. Everingham, D. A. Forsyth, M. Hebert, S. Lazebnik, M. Marszalek, C. Schmid, B. C. Russell, A. Torralba, C. K. I. Williams, J. Zhang, and A. Zisserman. Toward Category-Level Object Recognition, Springer-Verlag Lecture Notes in Computer Science. J. Ponce, M. Hebert, C. Schmid, and A. Zisserman (eds.), 2006. Дата обращения: 23 декабря 2016. Архивировано из оригинала 24 декабря 2016 года.
  5. F. Tanner, B. Colder, C. Pullen, D. Heagy, C. Oertel, & P. Sallee, Overhead Imagery Research Data Set (OIRDS) — an annotated data library and tools to aid in the development of computer vision algorithms, June 2009, <http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation Архивная копия от 9 ноября 2012 на Wayback Machine> (28 December 2009)
  6. L. Ballan, M. Bertini, A. Del Bimbo, A.M. Serain, G. Serra, B.F. Zaccone. Combining Generative and Discriminative Models for Classifying Social Images from 101 Object Categories. Int. Conference on Pattern Recognition (ICPR), 2012. Архивировано 26 августа 2014 года.