Исследователи обучали нейросеть на нескольких миллионах коротких видеороликов, в которых присутствовал голос человека. Программа отдельно работала с аудио- и видеофайлами. Анализируя полученные данные, нейросеть формировала изображения лица в анфас, а затем добавляла ему визуальные особенности. Отмечается, что Speech2Face опиралась на три демографических показателя: пол, расу и возраст.
Однако, как оказалось, программа пока не способна создать точный портрет человека и требует некоторых доработок. Так, к примеру, Speech2Face точно угадывала пол, а вот возраст не могла точно определить даже с разницей в десять лет. Этническая принадлежность тоже угадывалась, но весьма условно. В будущем программу планируют усовершенствовать.