Синтез речи, или Text-to-Speech (TTS)

Синтез речи

Text-to-Speech (TTS), или синтез речи, — это технология, которая преобразует печатный текст в звучащую речь. Синтез речи применяется во многих сферах. С его помощью, например, разрабатывают голосовых ассистентов и системы навигации, создают электронные курсы, игры и многое другое.

Преимущества синтеза речи

  • Не требуется аренда студии, работа звукорежиссера и дополнительная обработка звука.
  • Стоимость не зависит от числа голосов (актеров).
  • Искусственное создание голосовых фрагментов занимает меньше времени, чем живая запись в студии.
  • Исправления условно бесплатны и вносятся в синтезированную речь гораздо оперативнее, чем при записи с актером.

Важно! Мы не рекомендуем использовать любой из видов TTS в высокобюджетных играх, видео и рекламе, где высоки требования к качеству звука, интонационной подаче и т. д. Лучшим решением для такого проекта будет запись аудиодорожки в студии.


Виды TTS

Различают два вида синтеза речи: стандартный TTS и Neural TTS. Стандартный TTS используют при невысоких требованиях к качеству голоса. В этом случае допускаются неверные ударения, неправильные интонации или полное их отсутствие, искусственность и «металлизированность» звучания.

Neural TTS — относительно новая технология, которая преобразует текст в речь с помощью нейросети. Это позволяет добиться более реалистичной имитации человеческого голоса: он звучит естественно, хорошо передает простые эмоции и не допускает ошибок в ударениях. Отличить голос, созданный Neural TTS, от записанного в студии может только профессионал.

Logrus IT имеет большой опыт в области синтеза речи. Мы работаем как со стандартной технологией Text-to-Speech, так и с Neural — с использованием нейросети.


Примеры звукозаписи Neural TTS


Наши услуги

Сравнение производительности TTS и Neural TTS

У технологии Neural TTS есть ряд технических преимуществ по сравнению со стандартным TTS. Важнейшее из них состоит в том, что при работе с аудиозаписью специалисты не должны вручную настраивать ударения в отдельных словах, править интонацию и расставлять знаки препинания, — нейросеть предугадывает все сама. Благодаря этому синтез речи с помощью Neural TTS происходит быстрее.


Приведем пример. Если на то, чтобы подготовить текст из 6000 строк с использованием стандартного TTS, уйдет приблизительно 200 часов (около 30 строк в час), то Neural TTS справится с этой задачей за 100 часов (около 60 строк в час).


Если вы все же выбрали стандартную технологию синтеза речи (TTS), то для успешного результата необходимо привлечь высококвалифицированного инженера с глубокими знаниями TTS-технологий. В многоязыковых проектах потребуется еще один эксперт — носитель языка, который будет давать рекомендации инженеру. Конечно, идеальный вариант — когда инженер сам является носителем языка, но найти такого не всегда просто. Инженеров с опытом работы с TTS может быть мало, или их услуги могут стоить слишком дорого.

Чтобы улучшить звучание речи — настроить реалистичные интонации и ударения — все тексты должны обрабатываться экспертами вручную.

В результате производительность при использовании стандартной TTS-технологии сильно зависит от ряда факторов, среди которых:

  • целевой язык;
  • стоимость услуг эксперта-носителя языка;
  • выбранный голос;
  • единообразие текста.

В итоге получается, что, в сравнении со стандартной технологией TTS, Neural TTS не только делает синтез речи более экономичным, но и дает более качественный результат.

На данном веб-сайте используются файлы cookie. Нажимая кнопку «Я ПРИНИМАЮ» или продолжая пользоваться сайтом, вы соглашаетесь с использованием файлов cookie на этом веб-сайте и вашем устройстве. Политика конфиденциальности