Но когда у вас есть что-то конкретное, чего вы не знаете, например, название того нишевого кухонного инструмента, который вы видели в доме друга, может быть на удивление сложно проанализировать объем информации в Интернете и узнать, как ее искать. Или может возникнуть противоположная проблема – мы можем найти что угодно в Интернете, но как мы можем быть уверены, что находим все по теме, не проводя часы за компьютером??
Ученые-компьютерщики из Вашингтонского университета и Института искусственного интеллекта Аллена в Сиэтле создали первую полностью автоматизированную компьютерную программу, которая учит всему, что нужно знать о любой визуальной концепции.
Программа под названием Learning Everything about Anything, или LEVAN, выполняет поиск в миллионах книг и изображений в Интернете, чтобы изучить все возможные варианты концепции, а затем отображает результаты для пользователей в виде исчерпывающего, доступного для просмотра списка изображений, помогая им исследовать и понимать темы. быстро в мельчайших деталях.
«Все дело в обнаружении ассоциаций между текстовыми и визуальными данными», – сказал Али Фархади, доцент кафедры информатики и инженерии Университета штата Вашингтон. "Программа учится тесно связывать богатые наборы фраз с пикселями в изображениях. Это означает, что он может распознавать экземпляры определенных концепций, когда видит их."
В этом месяце исследовательская группа представит проект и соответствующий документ на ежегодной конференции по компьютерному зрению и распознаванию образов в Колумбусе, штат Огайо.
Программа изучает, какие термины имеют отношение к делу, просматривая содержимое изображений, найденных в Интернете, и выявляя характерные закономерности в них, используя алгоритмы распознавания объектов. Он отличается от онлайн-библиотек изображений, поскольку использует богатый набор фраз для понимания и маркировки фотографий по их содержимому и расположению пикселей, а не просто по словам, отображаемым в подписях.
Пользователи могут просматривать существующую библиотеку из примерно 175 концепций. Существующие концепции варьируются от «авиалинии» до «окна» и включают в себя «красиво», «завтрак», «сияние», «рак», «инновации», «скейтбординг», «робот» и первый вклад исследователей. , "лошадь."
Если концепция, которую вы ищете, не существует, вы можете отправить любой поисковый запрос, и программа автоматически начнет генерировать исчерпывающий список изображений подкатегорий, которые относятся к этой концепции.
Например, поиск по запросу "собака" вызывает очевидный набор подкатегорий: фотографии "собака чихуахуа", "черная собака", "собака для плавания", "неряшливая собака", "борзая собака".«Но также« собачий нос »,« собачья миска »,« грустная собака »,« самая уродливая собака »,« хот-дог »и даже« пуховая собака », как в позе йоги.
Этот метод работает путем поиска текста в миллионах книг, написанных на английском языке и доступных в Google Книгах, с поиском всех вхождений концепции во всей цифровой библиотеке. Затем алгоритм отфильтровывает слова, которые не являются визуальными.
Например, с концепцией «лошадь» алгоритм сохранит такие фразы, как «прыгающая лошадь», «ест лошадь» и «бочковая лошадь», но исключит невизуальные фразы, такие как «моя лошадь» и «последняя лошадь»."
Узнав, какие фразы уместны, программа выполняет поиск изображений в Интернете, ища единообразие внешнего вида среди полученных фотографий. Когда программа обучена находить соответствующие изображения, скажем, "прыгающей лошади", она затем распознает все изображения, связанные с этой фразой.
"Основные информационные ресурсы, такие как словари и энциклопедии, движутся в направлении показа пользователям визуальной информации, потому что ее легче понять и гораздо быстрее просматривать концепции. Однако они имеют ограниченный охват, так как часто создаются вручную. «Новая программа не требует человеческого надзора и, таким образом, может автоматически изучать визуальные знания для любой концепции», – сказал Сантош Диввала, научный сотрудник Института искусственного интеллекта Аллена и научный сотрудник UW в области компьютерных наук и инженерии.
В исследовательскую группу также входит Карлос Гестрин, профессор компьютерных наук и инженерии из Университета штата Вашингтон. Исследователи запустили программу в марте, имея лишь несколько концепций, и наблюдали, как с тех пор она растет, чтобы пометить более 13 миллионов изображений 65000 различных фраз.
В настоящее время программа ограничена в том, насколько быстро она может изучить концепцию из-за вычислительной мощности, необходимой для обработки каждого запроса, до 12 часов для некоторых общих концепций. Исследователи работают над увеличением скорости обработки и возможностей.
Команда хочет, чтобы программа с открытым исходным кодом была как образовательным инструментом, так и информационным банком для исследователей в сообществе компьютерного зрения. Команда также надеется предложить приложение для смартфона, которое может запускать программу для автоматического анализа и классификации фотографий.
Это исследование финансировалось U.S. Управление военно-морских исследований, Национальный научный фонд и UW.
