Компьютерное зрение - одно из тех направлений ИТ, которые могут приблизить реалии, описываемые в фантастических романах, однако, популярности искусственного интеллекта или квантового компьютера даже само понятие компьютерного зрения пока не достигло. Видимо, потому, что результатом успешного решения основных задач в этой области станет то, что компьютеры и роботы в фантастике умеют делать как бы по умолчанию: <видеть> и правильно интерпретировать <увиденное>.
Согласно одной легенде, исследования в области компьтерного зрения начались в 1966 году, когда Марвин Мински из MIT попросил своего студента Джеральда Джей Суссмана <провести лето, подключая камеру к компьютеру и обучая компьютер описывать то, что он видит>. Задание на лето превратилось в отдельное научное направление, порой тесно переплетаясь с исследованиями в области нейробиологии, вскрывающие принципы устройства зрения человека.
Результат более чем 30-летней работы очевиден уже сегодня: использование лазерных сканеров (LIDARs), появление игрового контроллера Kinect, распознавание текста и изображений и ряд других инновационных пользовательских устройств и сервисов, которые появляются сегодня, в немалой степени стала заслугой ученых, изучавших разные аспекты компьютерного зрения.
Нельзя не сказать о той роли, которую сыграли в этих исследованиях ученые, работающие в Microsoft Research. И особенно приятно отметить, что сейчас такие задачи из области компьютерного зрения, как семантический анализ трёхмерных облаков точек, поиск и распознавание текста на фотографиях, 2,5D декомпозиция видео, совместно решают исследовательская группа по компьютерному зрению Microsoft Research Cambridge (http://research.microsoft.com/en-us/groups/vision/) и исследовательская группа в области компьютерного зрения лаборатории Компьютерной графики и мультимедиа МГУ им. М.В. Ломоносова (http://graphics.cs.msu.ru/ru).
Целями их совместного исследования стало объединение методов анализа изображений и 3D точек в рамках одной среды. Результаты этой работы могут использоваться в самых различных областях: мобильных картографических платформах, включающих как лазерные сканеры, так и калиброванные камеры. Вся информация, получаемая от этих устройств, преобразуется в 3D облако точек. Обнаружение и распознавание различных объектов в полученных облаках может быть использовано для улучшения качества трёхмерных моделей или панорам различных online-сервисов (например, Microsoft Bing Maps Street View). Другим примером может служить распознавание и оценка положения объектов во внутренних сценах для видео-игр.
Ещё одним направлением совместных исследований MSR и лаборатории МГУ является обнаружение текста в естественных фотографиях. В то время, как задача распознавание текста в отсканированных или сфотографированных в заданных условиях документах, решена практически полностью, то при обычной фотосъёмке - на улице или в помещениизадача усложняется различной ориентацией камеры, фоном текста, цветом, особенностями освещения, низкой контрастностью, помехами перспективы и т. д.
Когда эта задача будет решена, станет возможен автоматический перевод текста на фотографиях, необходимый для путешественников, людей с ограниченными возможностями, навигация внутри зданий и др.
2,5D декомпозиция видео позволит автоматически построить псевдотрёхмерную модель сцены по небольшму видеоролику. Такое автоматические восстановление данных изображения позволило бы легко изменить ракурс съемки, заменить фон, поменять освещение или отредактировать материалы сцены. Кинематограф, анимация, игры, инструменты визуализации и целый ряд других практических областей применения ждут решения этой задачи.
Таким образом, компьютерное зрение, становится одним из магистральных направлений исследований в области ИТ, поскольку позволит эффективно использовать их уже сегодня. В этой связи неудивительно, что в этом году MSR и группа компьютерного зрения МГУ проводят совместную летнюю школу по компьютерному зрению - участие молодых ученых в этом проекте исключительно важно, как с образовательной, так и с научной точки зрения.