Нейросеть научилась подбирать звук для беззвучных видео

Новая технология получила название Soundify. Над проектом работали ученые из Университета Карнеги-Мелона и специалисты компании Runway.

Чтобы сопоставить звук с изображением, ученые использовали отдельные программы для анализа аудио и видео. Исходный ролик был разделен по кадрам для анализа цветовой гистограммы между соседними изображениями. После этого исследователи разделили звуки на две категории: объекты на видео, которые производят конкретный шум, и фоновые звуки.

Затем ученые пропустили видео через нейросеть, которая делает отметки на каждом кадре, и искусственный интеллект подобрал пять наиболее подходящих звуков для каждой сцены. На последнем этапе алгоритм учитывает временные интервалы в видео, когда звук должен воспроизводиться, поскольку, как отметили в отчете ученые, объект может появляться и исчезать из кадра, удаляться и приближаться в видео.



Если ты увидел что-то интересное, выиграл грант или стал очевидцем события, расскажи нам об этом:
Portal072@gmail.com
8 (3452) 68-34-55 /
VK / Telegram

Оцените материал: