Называется LOGAN, глубокая нейронная сеть, я.е., своего рода машина, может научиться преобразовывать формы двух разных объектов, например, стула и стола, естественным образом, не видя никаких парных преобразований между формами. Все, что видела машина, – это связка столов и связка стульев, и она могла автоматически преобразовывать формы между двумя непарными доменами. LOGAN также может автоматически выполнять перенос содержимого и стилей между двумя разными типами фигур без каких-либо изменений в своей сетевой архитектуре.
Команда исследователей из Университета Саймона Фрейзера, Шэньчжэньского и Тель-Авивского университетов, стоящих за LOGAN, собирается представить свою работу на ACM SIGGRAPH Asia, которая состоится в ноябре. С 17 до 20 в Брисбене, Австралия. SIGGRAPH Asia, которому уже 12 лет, привлекает самых уважаемых технических и творческих людей со всего мира в области компьютерной графики, анимации, интерактивности, игр и новейших технологий.
«Преобразование формы – одна из наиболее фундаментальных и часто встречающихся проблем в компьютерной графике и геометрическом моделировании», – говорит старший соавтор работы Хао (Ричард) Чжан, профессор компьютерных наук в Университете Саймона Фрейзера. «Новым и новым является увязка этой важной проблемы с глубоким обучением: может ли машина научиться преобразовывать формы, особенно в неконтролируемой или непарной среде??"
В этой работе исследователи обратились к хорошо известному методу машинного обучения, Generative Adversarial Network (GAN), для непарных преобразований формы общего назначения.
Их сеть обучается на двух наборах фигур, e.грамм., столы и стулья или разные буквы. Нет ни пары между формами в двух областях, чтобы направлять преобразование формы, ни какого-либо точечного соответствия между любыми формами. После обучения метод исследователей принимает форму набора точек из одной области, стола или стула, и трансформируется в другую.
LOGAN преодолевает ключевую проблему в методах преобразования формы.
Учитывая два набора форм – стулья и столы – для сети сложно узнать, какие именно элементы формы следует сохранить или изменить, чтобы привести к реалистичному преобразованию объекта, от стула к столу и наоборот. Метод команды изучает уникальные различия в функциях и может автоматически определять, какие функции следует сохранить или отбросить, чтобы добиться желаемого преобразования формы, и может сделать это без присмотра.
Были разработаны другие методы компьютерного зрения для непарного преобразования изображения в изображение, которые успешно применялись в переводе стилевых функций, но большинство из них не достигли преобразования формы. «В 2017 году CycleGAN и DualGAN, две очень влиятельные работы в области компьютерного зрения, были разработаны для непарного преобразования стиля изображения в изображение.
LOGAN впервые создает реалистичные переводы форм, как по стилю, так и по содержанию ”, – отмечает Чжан. Кроме того, исследователи демонстрируют, что LOGAN может обучаться передаче контента с сохранением стиля. Например, сеть может автоматически преобразовать букву «R» в букву «P» того же стиля шрифта, или, что касается перевода стиля, их метод может перевести жирную букву «A» в выделенную курсивом букву «A». ‘.
Чтобы разработать свой метод, исследователи обучают нейронную сеть, которая кодирует два типа входных форм в общее скрытое пространство. В глубоком обучении скрытое пространство представлено слоем узкого места, где сеть фиксирует особенности входных данных. LOGAN не только обучен превращать код стула в код таблицы, но также обучен превращать код таблицы в тот же код таблицы.
Последний обеспечивает «сохранение функций» и помогает поддерживать определенные функции стола во время преобразования формы от стула к столу.
В исследованиях абляции исследователи демонстрируют превосходные возможности LOGAN в непарных преобразованиях формы на различных примерах по сравнению с базовыми линиями и современными подходами. Их исследование показывает, что LOGAN может узнать, какие элементы формы следует сохранять во время преобразований, и результаты точно соответствуют желаемому объекту.
В будущей работе команда стремится настроить LOGAN для работы со всеми парами доменов, чтобы сделать его действительно универсальным. Текущая версия LOGAN также еще недостаточно умен, чтобы понимать значение фигур, и исследователи работают над тем, чтобы сделать сеть «умнее», чтобы включать эту информацию.
