Новая технология носит название Deep Voice и работает по принципу машинного «запоминания». Для создания речевого «опыта» программа прослушала звуковую запись длиной более 800 часов и включающей в себя около 2400 разных голосов, пишет Naked Scienes.
«С технической точки зрения, это важный прорыв, который показывает, что генеративное моделирование, а именно речевой синтез, может быть эффективным в каждом конкретном случае, основываясь на минимальном количестве примеров. Раньше на это требовалось гораздо больше времени и усилий», - сказал один из сотрудников компании Лео Цзоу.
Deep Voice научилась с точностью копировать тембр и интонации голоса. Создатели технологии считают, что программа может широко применяться, например, для создания индивидуальных цифровых помощников, оказания услуг по автоматическому синхронному переводу, озвучивания книг, фильмов и видеоигр. Более того разработчики уверены, что нейросеть поможет людям, утратившим возможность говоритьу. Еще одной особенностью Deep Voice является возможность менять голос с мужского на женский и наоборот, а также добавлять речи иностранный акцент.
Baidu Research не первые, кто попытался создать речевой ИИ. В прошлом году был представлен проект Lyrebird, который использовал нейронные сети для воспроизведения голосов, включая президента Дональда Трампа и бывшего президента Барака Обамы, с относительно небольшим количеством образцов. Как и Lyrebird, технология синтеза речи Baidu пока не вызывает полного доверия, так как возможности программы могут быть использованы мошенниками.