БЛОГ

Как повысить эффективность машинного перевода?

 

Технологии нейронного машинного перевода (nMT) в последнее время значительно продвинулись вперед в вопросе качества и всё чаще применяются в переводческой практике.

Мы в Logrus IT недавно проводили исследование применимости и производительности МП на текстах в области информационной безопасности. В результате выяснилось, что в этой тематике для пары английский-русский применение машинного перевода позволяет более чем вдвое увеличить производительность, а итоговое качество вполне сравнимо с качеством перевода, выполненного человеком. Подробности можно узнать в записи выступления Федора Безрукова (директор Logrus IT Ukraine) в Летней школе перевода:

 

 

Помимо этого, мы принимали участие в сравнении различных движков МП (выполняли LQA результатов тестирования) и лишний раз убедились в том, что машинный перевод — это серьезно.

Конечно, стоит учитывать, что сфера применения МП пока довольно ограничена и вряд ли стоит ждать от машины адекватного перевода маркетинговых, игровых или художественных текстов. Однако с переводом однотипной юридической и технической документации или справочных материалов МП справляется уже вполне достойно (при этом для разных языковых пар качество может радикально отличаться).

В случае с нейронными системами МП качество выдачи напрямую зависит от качества и объема обучающей выборки. Также повысить качество можно за счет применения движков с доменной адаптацией (т. е. с возможностью дообучения стоковых моделей на корпусах с отраслевой специализацией). Таким образом можно «натаскать» нейросеть на перевод текстов определенной тематики. Один из движков — ModernMT — позволяет адаптировать выдачу на уровне документа.

Проблема в том, что для доменной адаптации требуются обучающие корпуса внушительного объема (в среднем, от 10 до 100 тысяч сегментов), а они далеко не всегда есть в наличии. Неплохое решение — модель Google AutoML Translation, которая может существенно повысить качество выдачи, если натренировать ее на качественной ТМ (файл памяти переводов). Для ее создания не нужно быть программистом, все реализовано через графический интерфейс.

Помимо этого, повысить качество МП можно с помощью подключения глоссариев, которые, как правило, гораздо доступнее, чем тренировочные корпуса. К сожалению, и здесь есть свои подводные камни: далеко не во всех движках nMT такая возможность реализована, либо она находится в стадии тестирования (как, например, в случае с Google AutoML, который мы используем для экспериментов с МП).

Мы решили не ждать, пока Google выкатит полнофункциональный сервис, и написали собственную утилиту Glosser, которая позволяет подключать и регистрировать глоссарии в системе, даже если вы не программист.

Вообще, использование глоссариев в машинном переводе может быть полезно в следующих случаях:

  • Перевод имен собственных, в т. ч. названий брендов или продуктов. Например, Google Home не нужно переводить как «Google Дом».
  • Перевод элементов интерфейса в справочных материалах.
  • Перевод многозначных слов. Пример: слово «bat» может переводиться как «летучая мышь» или «бита» в зависимости от контекста.
  • Перевод заимствованных, устаревших или малоупотребительных слов. Пример: слово «bouillabaisse» (буйабес, рыбный суп) пришло в английский язык из французского в XIX веке. Но для большинства носителей английского языка это название ничего не скажет, если только они не увлекаются кулинарией или французской культурой. Поэтому в некоторых случаях подобные слова лучше переводить описательно (например, fish stew).

В целом, кастомизация движков nMT (тренировка их под свои нужды, подключение глоссариев) выглядит очень перспективным направлением. Не исключено, что уже в недалеком будущем переводческие компании будут предлагать ее как отдельную услугу.

А пока мы с интересом наблюдаем за развитием технологии и тестируем ее в рамках нашего R&D-направления. Здесь можно посмотреть запись вебинара Леонида Глазычева (CEO Logrus IT) о нашем подходе к использованию машинного перевода.

 

Текст: Валерия Самсонова

НАЗАД
На данном веб-сайте используются файлы cookie. Нажимая кнопку «Я ПРИНИМАЮ» или продолжая пользоваться сайтом, вы соглашаетесь с использованием файлов cookie на этом веб-сайте и вашем устройстве. Политика конфиденциальности