Text-to-Speech (TTS), или синтез речи, — это технология, которая преобразует печатный текст в звучащую речь. Синтез речи применяется во многих сферах. С его помощью, например, разрабатывают голосовых ассистентов и системы навигации, создают электронные курсы, игры и многое другое.
Преимущества синтеза речи
Важно! Мы не рекомендуем использовать любой из видов TTS в высокобюджетных играх, видео и рекламе, где высоки требования к качеству звука, интонационной подаче и т. д. Лучшим решением для такого проекта будет запись аудиодорожки в студии.
Различают два вида синтеза речи: стандартный TTS и Neural TTS. Стандартный TTS используют при невысоких требованиях к качеству голоса. В этом случае допускаются неверные ударения, неправильные интонации или полное их отсутствие, искусственность и «металлизированность» звучания.
Neural TTS — относительно новая технология, которая преобразует текст в речь с помощью нейросети. Это позволяет добиться более реалистичной имитации человеческого голоса: он звучит естественно, хорошо передает простые эмоции и не допускает ошибок в ударениях. Отличить голос, созданный Neural TTS, от записанного в студии может только профессионал.
Logrus IT имеет большой опыт в области синтеза речи. Мы работаем как со стандартной технологией Text-to-Speech, так и с Neural — с использованием нейросети.
У технологии Neural TTS есть ряд технических преимуществ по сравнению со стандартным TTS. Важнейшее из них состоит в том, что при работе с аудиозаписью специалисты не должны вручную настраивать ударения в отдельных словах, править интонацию и расставлять знаки препинания, — нейросеть предугадывает все сама. Благодаря этому синтез речи с помощью Neural TTS происходит быстрее.
Приведем пример. Если на то, чтобы подготовить текст из 6000 строк с использованием стандартного TTS, уйдет приблизительно 200 часов (около 30 строк в час), то Neural TTS справится с этой задачей за 100 часов (около 60 строк в час).
Если вы все же выбрали стандартную технологию синтеза речи (TTS), то для успешного результата необходимо привлечь высококвалифицированного инженера с глубокими знаниями TTS-технологий. В многоязыковых проектах потребуется еще один эксперт — носитель языка, который будет давать рекомендации инженеру. Конечно, идеальный вариант — когда инженер сам является носителем языка, но найти такого не всегда просто. Инженеров с опытом работы с TTS может быть мало, или их услуги могут стоить слишком дорого.
Чтобы улучшить звучание речи — настроить реалистичные интонации и ударения — все тексты должны обрабатываться экспертами вручную.
В результате производительность при использовании стандартной TTS-технологии сильно зависит от ряда факторов, среди которых:
В итоге получается, что, в сравнении со стандартной технологией TTS, Neural TTS не только делает синтез речи более экономичным, но и дает более качественный результат.