Извлечение звука из визуальной информации: алгоритм восстанавливает речь из вибраций мешка с картофельными чипсами, снятых через звуконепроницаемое стекло

В других экспериментах они извлекали полезные аудиосигналы из видеозаписей алюминиевой фольги, поверхности стакана с водой и даже листьев растения в горшке. Исследователи представят свои выводы в докладе на Siggraph, ведущей конференции по компьютерной графике в этом году.
«Когда звук попадает в объект, он заставляет объект вибрировать», – говорит Эйб Дэвис, аспирант в области электротехники и информатики Массачусетского технологического института и первый автор новой статьи. "Движение этой вибрации создает очень тонкий визуальный сигнал, который обычно не виден невооруженным глазом.

Люди не понимали, что эта информация была там."
К Дэвису в работе над Siggraph присоединились Фредо Дюран и Билл Фриман, профессора информатики и инженерии Массачусетского технологического института; Нил Вадхва, аспирант группы Фримена; Майкл Рубинштейн из Microsoft Research, который защитил докторскую диссертацию вместе с Freeman; и Гаутам Майсор из Adobe Research.
Для восстановления звука из видео требуется, чтобы частота отсчетов видео – количество кадров видео, захваченных в секунду – была выше, чем частота аудиосигнала.

В некоторых из своих экспериментов исследователи использовали высокоскоростную камеру, которая снимала от 2000 до 6000 кадров в секунду. Это намного быстрее, чем 60 кадров в секунду, которые возможны для некоторых смартфонов, но намного ниже частоты кадров лучших коммерческих высокоскоростных камер, которые могут достигать 100000 кадров в секунду.
Товарное оборудование
Однако в других экспериментах они использовали обычную цифровую камеру.

Из-за необычной конструкции сенсоров большинства камер исследователи смогли получить информацию о высокочастотных вибрациях даже из видео, записанного со стандартной скоростью 60 кадров в секунду. Хотя эта реконструкция звука не была такой точной, как с высокоскоростной камерой, ее все же может быть достаточно, чтобы определить пол говорящего в комнате; количество динамиков; и даже, учитывая достаточно точную информацию об акустических свойствах голосов говорящих, их личности.

Метод исследователей имеет очевидное применение в правоохранительных органах и судебной медицине, но Дэвис с большим энтузиазмом относится к возможности того, что он описывает как «новый вид визуализации»."
«Мы восстанавливаем звуки от объектов», – говорит он. "Это дает нам много информации о звуке, который происходит вокруг объекта, но также дает нам много информации о самом объекте, потому что разные объекты будут реагировать на звук по-разному.«В ходе текущей работы исследователи начали попытки определить материальные и структурные свойства объектов по их видимой реакции на короткие звуковые волны.

В экспериментах, описанных в статье Siggraph, исследователи также измерили механические свойства объектов, которые они снимали, и определили, что измеряемые ими движения составляли около десятой микрометра. Это соответствует пяти тысячным пикселя на изображении крупным планом, но по изменению значения цвета отдельного пикселя с течением времени можно сделать вывод о движениях меньше одного пикселя.
Предположим, например, что изображение имеет четкую границу между двумя областями: все на одной стороне границы синее; все с другой стороны красное. Но на самой границе сенсор камеры получает и красный, и синий свет, поэтому он усредняет их, чтобы получить фиолетовый.

Если в последовательных кадрах видео синяя область вторгается в красную область – даже меньше ширины пикселя – фиолетовый станет немного синее. Этот цветовой сдвиг содержит информацию о степени посягательства.
Собираем все вместе

Однако некоторые границы изображения нечеткие, чем один пиксель по ширине. Поэтому исследователи позаимствовали методику из более ранней работы над алгоритмами, которые усиливают крохотные вариации на видео, делая видимые ранее не обнаруживаемые движения: дыхание младенца в отделении для новорожденных в больнице или пульс на запястье пациента.

Этот метод пропускает последовательные кадры видео через батарею фильтров изображения, которые используются для измерения флуктуаций, таких как изменение значений цвета на границах, в нескольких разных ориентациях – скажем, по горизонтали, вертикали и диагонали – и в нескольких разных масштабах.

Исследователи разработали алгоритм, который объединяет выходные данные фильтров, чтобы сделать вывод о движении объекта в целом, когда он поражен звуковыми волнами. Различные края объекта могут двигаться в разных направлениях, поэтому алгоритм сначала выравнивает все измерения, чтобы они не компенсировали друг друга. И это придает больший вес измерениям, выполненным на очень отчетливых краях – четкие границы между разными значениями цвета.
Исследователи также разработали вариант алгоритма анализа обычного видео.

Сенсор цифровой камеры состоит из множества фотоприемников – миллионы из них, даже в обычных устройствах. Оказывается, дешевле спроектировать аппаратное обеспечение датчика так, чтобы оно считывало измерения одного ряда фотодетекторов за раз.

Обычно это не проблема, но с быстро движущимися объектами это может привести к появлению необычных визуальных артефактов. Объект – скажем, ротор вертолета – может действительно заметно перемещаться между считыванием одной строки и считыванием следующей.
Для Дэвиса и его коллег эта ошибка – особенность.

Незначительные искажения краев объектов на обычном видео, хотя и невидимые невооруженным глазом, содержат информацию о высокочастотной вибрации объектов. И этой информации достаточно, чтобы получить мутный, но потенциально полезный аудиосигнал.
"Это новое и освежающее.

Это то, что ни одна другая группа сейчас не сделает », – говорит Алексей Эфрос, доцент кафедры электротехники и информатики Калифорнийского университета в Беркли. «Мы ученые, и иногда мы смотрим эти фильмы, как Джеймс Бонд, и думаем:« Это голливудское театральное искусство ». Это невозможно сделать. Это смешно.И вдруг вот оно. Это совершенно не из какого-то голливудского триллера. Вы знаете, что убийца признал свою вину, потому что есть запись видеонаблюдения, на которой его пакет с картофельными чипсами вибрирует."

Эфрос согласен с тем, что определение свойств материалов может стать плодотворным применением этой технологии. Но он добавляет: «Я уверен, что появятся приложения, которых никто не ожидает.

Я считаю, что отличительной чертой хорошей науки является то, что ты делаешь что-то только потому, что это круто, а потом кто-то оборачивается и использует это для чего-то, чего ты даже не представлял. Приятно иметь такие креативные вещи."
Видео: https: // www.YouTube.com / watch?v = FKXOucXB4a8

Блог автомобилиста