Компьютер ищет в Интернете 24/7, чтобы анализировать изображения и учиться здравому смыслу

NEIL использует последние достижения в области компьютерного зрения, которые позволяют компьютерным программам идентифицировать и маркировать объекты на изображениях, характеризовать сцены и распознавать такие атрибуты, как цвета, освещение и материалы, и все это при минимальном контроле со стороны человека. В свою очередь, данные, которые он генерирует, еще больше улучшат способность компьютеров понимать визуальный мир.

Но NEIL также создает ассоциации между этими вещами, чтобы получить здравую информацию, которую люди, кажется, знают, даже не говоря о том, что автомобили часто встречаются на дорогах, что здания имеют тенденцию быть вертикальными и что утки выглядят как гуси. Судя по текстовым ссылкам, может показаться, что цвет овец черный, но люди – и НИЛ – тем не менее знают, что овцы обычно белые.
"Изображения – лучший способ изучить визуальные свойства", – сказал Абхинав Гупта, доцент-исследователь Робототехнического института Карнеги-Меллона. "Изображения также содержат много здравой информации о мире.

Люди узнают это сами, и мы надеемся, что с NEIL и компьютеры сделают то же самое."
Компьютерный кластер запускает программу NEIL с конца июля и уже проанализировал три миллиона изображений, определив 1500 типов объектов в полумиллионе изображений и 1200 типов сцен в сотнях тысяч изображений.

Он соединил точки, чтобы узнать 2500 ассоциаций из тысяч экземпляров.
Теперь общественность может ознакомиться с выводами NEIL на веб-сайте проекта http: // www.neil-kb.ком.

Исследовательская группа, в том числе Синьлей Чен, доктор.D. студент Института языковых технологий КМУ и Абхинав Шривастава, доктор философии.D. студент в области робототехники, представит свои выводы в декабре. 4 место на Международной конференции IEEE по компьютерному зрению в Сиднее, Австралия.
Одним из мотивов проекта NEIL является создание крупнейшей в мире структурированной визуальной базы знаний, в которой объекты, сцены, действия, атрибуты и контекстные отношения помечены и каталогизированы.

«За последние 5-10 лет исследований компьютерного зрения мы узнали, что чем больше у вас данных, тем лучше становится компьютерное зрение», – сказал Гупта.
Некоторые проекты, такие как ImageNet и Visipedia, пытались скомпилировать эти структурированные данные с помощью человека.

Но масштабы Интернета настолько огромны – только Facebook хранит более 200 миллиардов изображений, – что единственная надежда проанализировать все это – научить компьютеры делать это в основном самостоятельно.
Шривастава сказал, что NEIL может иногда делать ошибочные предположения, которые усугубляют ошибки, поэтому люди должны участвовать в этом процессе. Например, поиск в Google Image может убедить NEIL в том, что «розовый» – это просто имя певца, а не цвет.

«Люди не всегда знают, как и чему учить компьютеры», – заметил он. "Но люди умеют говорить компьютерам, когда они ошибаются."
Люди также сообщают NEIL, какие категории объектов, сцен и т. Д., искать и анализировать. Но иногда то, что находит NEIL, может удивить даже исследователей. Например, можно ожидать, что поиск по слову «яблоко» может вернуть изображения фруктов, а также портативных компьютеров.

Но Гупта и его команда не догадывались, что поиск F-18 позволит идентифицировать не только изображения истребителя, но и катамаранов класса F18.
По мере поиска NEIL разрабатывает подкатегории объектов – трехколесные велосипеды могут быть для детей, для взрослых и могут быть моторизованными, или автомобили бывают разных марок и моделей.

И он начинает замечать ассоциации – зебры, как правило, водятся, например, в саваннах, а на биржевых площадках обычно бывает много людей.
Исследовательская группа отметила, что NEIL требует больших вычислительных ресурсов.

Программа работает на двух кластерах компьютеров, включающих 200 процессорных ядер.