Google разработал искусственный интеллект, способный "говорить", как человек

Компания Google создала продвинутый синтезатор речи нового поколения Tacotron 2, который основан на нейросети и может говорить с тембром, ритмом и произношением, не отличающимися от человеческой речи.

Алгоритм Tacotron 2, работающий на основе двух нейронных сетей, представила команда разработчиков Google с участием Джонатана Шена. Печатная версия конвертируется в Tacotron-спектрограмму, где распределяются ритм и ударения. Слова генерируются в аналоге WaveNet. Также была добавлена система сбора данных для обучения нейросети.

Отмечается, что аудиозапись на самом деле похожа на язык живого человека. Темп речи звучит достаточно убедительно, а основные задержки происходят на словах с необычным произношением. Однако часть слушателей заявили, что система все же произносит некоторые слова «ломано».

Образцы работы Tacorton 2 уже можно послушать на официальном сайте Google. Вероятно, данную технологию сразу начнут использовать в продуктах компании.

В то же время одной из основных проблем нового алгоритма называют отсутствие регулирования тона речи. Из-за этого невозможно предсказать, какая фраза прозвучит возвышенно, а какая — грубо.

Обсудить