БЛОГ

Компания Logrus IT поучаствовала в сравнении систем нейронного машинного перевода

 

Недавно наша компания приняла участие в любопытном проекте по сравнению эффективности движков нейронного машинного перевода, в том числе систем от Google, Microsoft и IBM. Исследование проводила компания Intento, которая предоставляет единую платформу для использования сервисов на основе искусственного интеллекта от разных поставщиков.

Небольшая справка. Технологии машинного перевода совершенствуются каждый год, и если в середине 2000-х все смеялись над перлами автоматических переводчиков и не воспринимали их всерьёз, то с появлением систем нейронного машинного перевода в 2016 году ситуация стала быстро меняться.   

Нейронный машинный перевод (Neural Machine Translation, NMT) использует методы глубокого обучения нейросетей и по многим показателям превосходит статистические модели МП, которые до этого считались наиболее эффективными.   

В 2018 году сразу несколько игроков на рынке МП реализовали возможность доменной адаптации своих движков (т.е. адаптации под конкретную предметную область). В своем исследовании Intento анализирует эффективность такой адаптации и сравнивает их с несколькими стоковыми («пре-тренированными») движками по критериям эффективности (на основе качества выдачи), стоимости, требованиям к размеру обучающей выборки, времени на обучение и политики защиты данных.

Для обучения движков был выбран массив данных на биомедицинскую тематику в паре английский -> немецкий. Из него же извлекли случайный набор сегментов для тестирования обученных нейросетей. Затем готовые переводы проанализировали с помощью алгоритма LEPOR и выявили наиболее «способные» системы.

Но это ещё не всё. Часть сегментов, которые были переведены разными движками с существенными различиями, отправились к нам в Logrus IT на ручную проверку. Наши лингвисты получили оригиналы текстов и обезличенные варианты переводов от 13 испытуемых систем, а также образцовый перевод, выполненный человеком. При этом, для чистоты эксперимента, источники переводов не были указаны — мы не знали, какой перевод проверяем: человеческий или машинный, и если машинный, то какой именно движок использовался.

При анализе качества переводов мы использовали свою собственную методологию, включающую несколько критериев оценки (адекватность, удобочитаемость, терминология, стилистика и т.п.), а также шкалу серьёзности ошибок (от критических до незначительных). Подробнее об этом можно почитать здесь.  

На основе данных анализа был составлен рейтинг систем по числу и характеру допускаемых в переводе ошибок (см. график).

 

NMT analysis

Результаты LQA

 

Как мы видим, человеческий перевод оказался отнюдь не лучшим! Во многом это связано с неидеальным качеством обучающей выборки, от которого напрямую зависит результат работы нейросети. Поэтому при первичном автоматическом анализе результатов вперёд вышли те системы, которые обучились наиболее точно имитировать существующие тексты из конкретной выборки на целевом языке.    

Посмотреть презентацию исследования можно по ссылке1 или альтернативной ссылке2, если первая не работает.

 

Текст: Валерия Самсонова

 

НАЗАД
На данном веб-сайте используются файлы cookie. Нажимая кнопку «Я ПРИНИМАЮ» или продолжая пользоваться сайтом, вы соглашаетесь с использованием файлов cookie на этом веб-сайте и вашем устройстве. Политика конфиденциальности