Исследователи из Техасского университета в Остине и Facebook AI Research использовали машинное обучение для преобразования монофонического звука в стереозвук. Этот метод включает использование видео для определения конфигурации объекта и сцены, в результате чего «2.5D визуальный звук» предлагает более надежный опыт. Эта технология позволяет превратить обычный монофонический звук в захватывающий продукт, подходящий для таких приложений, как гарнитуры виртуальной реальности.
Люди способны воспринимать расстояние и местоположение шумных вещей в трехмерном пространстве благодаря комбинации двух ушей и расстояния между ними. Различные элементы помогают слушателям различать направление и расстояние от производящих шум объектов, например, насколько громкий этот шум и какое ухо он достигает первым.
Это так называемое трехмерное звучание может быть воспроизведено путем записи звука с использованием бинауральной установки, в которой используются два микрофона, расположенные примерно на таком же расстоянии, что и человеческие уши. Получающийся в результате один аудиофайл – при прослушивании через наушники – обеспечивает реалистичное, захватывающее звучание, которое позволяет воспринимать объекты в трехмерном пространстве.
Тем не менее, большинство аудио является монофоническим, что означает, что они были записаны с помощью одного микрофона из одного места. Несмотря на адекватность, монофонический звук не фиксирует эффекты, которые позволили бы людям воспринимать расстояние и местоположение объектов, что приводит к менее реалистичному, захватывающему продукту.
Преобразование монофонического звука в стереозвук более или менее было невозможно, но исследователи Руохан Гао и Кристен Грауман нашли способ приблизиться – он использует глубокое обучение и производит то, что они называют «2.5D» аудио. Этот метод основан на связанном видео, которое обрабатывается для визуальных сигналов, которые можно комбинировать со звуком для регулировки уровней, имитирующих положение производящих шум объектов в трехмерном пространстве.
У этого метода есть некоторые ограничения, в частности, он не может учитывать любой объект, который визуально не присутствует в видео. Пример вывода звука 2.5D представлен на видео выше, но вам понадобится пара наушников для его восприятия. Источник