«Мы стремимся создать системы компьютерного зрения, которые помогут компьютерам лучше понять мир вокруг них», - сказал Нуну Васконселос, профессор электротехники из UC San Diego Jacobs School of Engineering.
Обычные системы исследуют изображение в маленьких окнах, которые обрабатываются классификатором. Этот подход является сложной задачей, так как люди на изображении получаются различного размера (в зависимости от расстояния до них) и в различных частях кадра. Как правило, нужно проверить миллионы частей видеокадра со скоростью от 5 до 30 кадров в секунду.
В каскадном обнаружении детектор работает в несколько этапов. Сперва алгоритм идентифицирует и отбрасывает изображения не имеющие человека (к примеру, небо). Затем обрабатываются изображения, которые труднее идентифицировать, к примеру, содержащие дерево, которое компьютер может распознать по форме, цвету, контурам и т.д. На заключительном этапе алгоритм должен отличить людей/пешеходов от других похожих объектов. Хотя этот метод является относительно быстрым, он не достаточно надежен, когда достигает финальной стадии.
Чтобы решить эту проблему, Васконселос и его команда разработал новый алгоритм, который включает глубинное обучение и моделирование на заключительных этапах каскадного детектора. Глубинные модели лучше подходят для комплексного распознавания образов и могут сопоставить сотни и тысячи примеров изображений, которые имеют или не имеют человека. Но, в то время, как эта технология хорошо работает на конечных стадиях, она слишком сложна для использования ее на ранних стадиях. Поэтому в решении исследователей сперва используются простые классификаторы, а затем сложные — глубинное обучение и моделирование.
Алгоритм работает пока только для бинарных задач обнаружения, таких, как обнаружение пешеходов. Но исследователи стремятся расширить технологию каскадного обнаружения многих объектов одновременно.
В видео показана работа системы обнаружения пешеходов, предложенная командой Васконселоса: