За последние 20 лет переводческая индустрия изменилась радикально. Перевод в текстовом редакторе и передача файлов через дискеты канули в лету. Современные компании массовым порядком внедряют облачные технологии, а специальные приложения для выполнения переводов (computer-assisted translation, CAT), использующие память переводов (translation memory) и подгружаемые терминологические глоссарии, уже давно никого не удивляют. Более того, существенные успехи в последние годы достигнуты и в области машинного перевода (MT), который, о чудо, стал на самом деле (а не только в воображении производителей) неплохо работать для некоторых языковых пар и предметных областей.
На фоне непрерывного совершенствования собственно переводческих средств и технологий не менее животрепещущий вопрос контроля качества перевода за тот же самый срок почти не сдвинулся с места. И это несмотря на то, что качество перевода зачастую оказывает огромное влияние на общее впечатление, которое у нас создается о той или иной компании в целом, ее продуктах и услугах, особенно если перевод настолько плох, что не позволяет нормально разобраться в инструкциях или вызывает неверные действия потребителя.
Вплоть до последнего времени суждение о качестве выносилось либо на основе чисто эмоционального воздействия текста на рецензента («нравится/не нравится», «ужасно», и т. п.), либо с помощью подхода, базирующегося на механистическом измерении того, что проще всего измерить (а вовсе не того, что на самом деле важно). Эксперты с вдохновением составляли гигантские, многоуровневые каталоги категорий ошибок и метрики (DFKI, TAUS и др.), где каждой категории и подкатегории присваивался тот или иной удельный вес. Анализ текста в такой модели сводится к подсчету числа найденных ошибок каждого из типов и вычислению интегрального уровня ошибок в расчете на тысячу слов. Чем ошибок больше, и чем они серьезнее, — тем хуже перевод.
Сам по себе метод вроде бы совсем не плох. Никто не любит видеть в тексте опечатки и грамматические ошибки, сдвоенные пробелы, неправильную терминологию, неработающие ссылки и пр.
Проблема лежит на совершенно ином уровне. Дело в том, что все тщательно описанные категории ошибок относятся к так называемому «атомарному» уровню, т. е. локализованы на уровне предложений и строк, которые анализируются последовательно. А этот подход, в свою очередь, коренным образом противоречит принципам человеческого восприятия текста. Человеческий мозг, в первую очередь, воспринимает любой слитный текст как нечто целое, заключающее в себе информационный и эмоциональный пласты. И это целое для нас гораздо важнее составляющих (предложений и строк).
Замеченные при чтении переведенного текста ошибки атомарного уровня нас, безусловно, раздражают, однако гораздо важнее другое:
Оба указанных показателя были выделены как основополагающие для оценки качества перевода еще в классической работе ALPAC пятидесятилетней (!) давности, Computers in Translation and Linguistics (1966). На этом фоне традиционный механистический метод оценки качества перевода больше всего похож на поиск потерянных ночью ключей под фонарем… Особенно когда перевод выполняется не с целью создать идеальный текст, а чисто машинным способом, почти без редактирования, и его основная цель — дать иностранной аудитории доступ к огромным базам знаний, которые в противном случае для нее просто недоступны. Однако дальнейший перенос концепции в практическую область оценки качества переводов так и не был выполнен.
Для меня лично и компании Logrus IT вопрос о построении более правильной и объективной методологии оценки качества перевода, основанной на факторах, приоритетных при восприятии текста читателем, был одновременно интересен и важен с практической точки зрения. Мы не только выполняем большие объемы технических и игровых переводов, но и часто выступаем в роли независимых контролеров качества переводов, сделанных другими компаниями. Да и свои переводы хотелось бы проверять более правильно и эффективно.
Именно по этой причине несколько лет назад мы задались целью построить более научный и универсальный подход к контролю качества перевода. Новый, гибридный подход базируется на концепции «треугольника качества» (Quality Triangle), включающего два глобальных фактора (адекватность перевода и его удобочитаемость на уровне достаточно больших, слитных фрагментов текста) и один традиционный, атомарный (общий уровень ошибок на уровне предложений и строк).
Все три фактора дополняют друг друга и формируют трехмерное «пространство качества». Перевод является приемлемым в случае, если он удовлетворяет сразу трем пороговым критериям:
Смешивать эти показатели и пытаться выдать некий интегральный уровень качества не имеет смысла точно так же, как пытаться свернуть находящееся вокруг нас трехмерное пространство в одномерное. Все три показателя независимы и должны оцениваться отдельно.
Действительно, кому будет полезен идеально написанный, но совершенно бессмысленный по сути текст или текст, правильно передающий содержание оригинала, но написанный настолько зубодробительным языком, что через него невозможно продраться? Аналогично, в меру адекватный перевод с приличным языком, однако изобилующий техническими ошибками и огрехами всех видов, также восторг у читателя не вызовет…
Здесь важно отметить, что превращение красивой концепции в конкретные метрики требует четкого ответа на основной вопрос: как измерять глобальные показатели адекватности и удобочитаемости переведенного текста, обеспечив при этом достаточно высокий уровень объективности оценки. Разные люди могут дать отличающиеся оценки адекватности и удобочитаемости одного и того же перевода. Если разброс будет велик, то обе оценки останутся глубоко субъективными, а метрику на основе предложенного подхода создать не удастся…
К счастью, гибридный трехмерный подход, в основе которого лежит треугольник качества, работает и дает достаточно объективные результаты. Для этого необходимы два условия:
Сами пороговые значения, ниже которых перевод считается неприемлемым, всего лишь отражают уровень толерантности в конкретном случае. Этот уровень может сильно варьироваться в зависимости от условий. При переводе баз знаний требования к качеству, как правило, являются скромными: от перевода требуется всего лишь адекватность на уровне отсутствия грубых искажений смысла и принципиальная возможность его прочесть. «Мелочи» типа не искажающих смысл грамматических ошибок и т. п. вполне простительны. В то же время к рекламному буклету или домашней странице сайта требования будут на порядок выше.
В Logrus IT мы разработали обе шкалы для измерения глобальной адекватности и удобочитаемости переведенного текста и теперь при проверках качества пользуемся новой, трехмерной гибридной метрикой.
Уже первые результаты показали, насколько новая метрика богаче и информативнее старых. В частности, на первом же многоязыковом проекте обнаружились переводы, прекрасно проходящие по традиционному, атомарному уровню качества, но совершенно неприемлемые в области адекватности и/или удобочитаемости. При обычной проверке такие переводы были бы признаны годными. Встречаются и строго обратные случаи качественного по сути, но при этом неаккуратного в технических деталях перевода. Прямая корреляция между различными показателями качества не обнаружена. Чаще всего достаточно адекватный перевод, как правило, выполнен приличным языком, однако сами показатели могут варьироваться.
Метрика полностью адаптируется под ожидания клиента в каждом конкретном случае и легко покрывает весь диапазон от необработанного машинного перевода до «вылизанных» рекламных листовок и презентаций. Достаточно выставить ожидаемые пороговые значения для каждого из трех показателей качества. Сами шкалы на данный момент являются нашей коммерческой тайной и пока публиковаться не будут.