Чтобы сопоставить звук с изображением, ученые использовали отдельные программы для анализа аудио и видео. Исходный ролик был разделен по кадрам для анализа цветовой гистограммы между соседними изображениями. После этого исследователи разделили звуки на две категории: объекты на видео, которые производят конкретный шум, и фоновые звуки.
Затем ученые пропустили видео через нейросеть, которая делает отметки на каждом кадре, и искусственный интеллект подобрал пять наиболее подходящих звуков для каждой сцены. На последнем этапе алгоритм учитывает временные интервалы в видео, когда звук должен воспроизводиться, поскольку, как отметили в отчете ученые, объект может появляться и исчезать из кадра, удаляться и приближаться в видео.