Новое приложение «подарит» голос тем, кто не может говорить

Китайский поисковой гигант Baidu создал ИИ, который способен точно воспроизвести речь человека спустя минуту после прослушивания.


Новая технология носит название Deep Voice и работает по принципу машинного «запоминания». Для создания речевого «опыта» программа прослушала звуковую запись длиной более 800 часов и включающей в себя около 2400 разных голосов, пишет Naked Scienes.

 «С технической точки зрения, это важный прорыв, который показывает, что генеративное моделирование, а именно речевой синтез, может быть эффективным в каждом конкретном случае, основываясь на минимальном количестве примеров. Раньше на это требовалось гораздо больше времени и усилий», - сказал один из сотрудников компании Лео Цзоу.

Deep Voice научилась с точностью копировать тембр и интонации голоса. Создатели технологии считают, что программа может широко применяться, например, для создания индивидуальных цифровых помощников, оказания услуг по автоматическому синхронному переводу, озвучивания книг, фильмов и видеоигр. Более того разработчики уверены, что нейросеть поможет людям, утратившим возможность говоритьу. Еще одной особенностью Deep Voice является возможность менять голос с мужского на женский и наоборот, а также добавлять речи иностранный акцент.

Baidu Research не первые, кто попытался создать речевой ИИ. В прошлом году был представлен проект Lyrebird, который использовал нейронные сети для воспроизведения голосов, включая президента Дональда Трампа и бывшего президента Барака Обамы, с относительно небольшим количеством образцов. Как и Lyrebird, технология синтеза речи Baidu пока не вызывает полного доверия, так как возможности программы могут быть использованы мошенниками.

Последние новости

Архив новостей