Новое приложение «подарит» голос тем, кто не может говорить

Технологии

11350

7 марта 2018, 20:30

Китайский поисковой гигант Baidu создал ИИ, который способен точно воспроизвести речь человека спустя минуту после прослушивания.

Новая технология носит название Deep Voice и работает по принципу машинного «запоминания». Для создания речевого «опыта» программа прослушала звуковую запись длиной более 800 часов и включающей в себя около 2400 разных голосов, пишет Naked Scienes.

«С технической точки зрения, это важный прорыв, который показывает, что генеративное моделирование, а именно речевой синтез, может быть эффективным в каждом конкретном случае, основываясь на минимальном количестве примеров. Раньше на это требовалось гораздо больше времени и усилий», - сказал один из сотрудников компании Лео Цзоу.

Deep Voice научилась с точностью копировать тембр и интонации голоса. Создатели технологии считают, что программа может широко применяться, например, для создания индивидуальных цифровых помощников, оказания услуг по автоматическому синхронному переводу, озвучивания книг, фильмов и видеоигр. Более того разработчики уверены, что нейросеть поможет людям, утратившим возможность говоритьу. Еще одной особенностью Deep Voice является возможность менять голос с мужского на женский и наоборот, а также добавлять речи иностранный акцент.

Baidu Research не первые, кто попытался создать речевой ИИ. В прошлом году был представлен проект Lyrebird, который использовал нейронные сети для воспроизведения голосов, включая президента Дональда Трампа и бывшего президента Барака Обамы, с относительно небольшим количеством образцов. Как и Lyrebird, технология синтеза речи Baidu пока не вызывает полного доверия, так как возможности программы могут быть использованы мошенниками.

Новое приложение «подарит» голос тем, кто не может говорить

Последние новости