기계 번역(MT: Machine Translation)은 찬반이 갈리는 주제입니다. 우리는 지난 수 년간 기계 번역에 대한 우려의 목소리와 중립적인 의견, 그리고 이에 찬성하는 의견을 들어왔습니다.
로그러스아이티는 실용주의 사상에 입각하여 기계 번역이 비용 절약과 생산성 최적화에 도움이 되는 여러 요인 중 하나라고 보고 있습니다. 기계 번역은 시간 및 비용의 제약으로 인해 인적 자원 투입이 불가능한 번역 작업을 가능하게 해 줄 대안을 제공합니다.
고객이 기계 번역을 기피하는 경우, 문제는 기계 번역 자체에 있는 것이 아니라 인적 자원의 검수 부족이나 적절한 결과물 품질 관리 공정의 부재, 또는 수준 이하의 결과물 납품을 야기하는 부실한 작업 공정에 있습니다. 로그러스아이티는 총체적인 다중 번역 및 수준 높은 품질 관리 시스템을 활용하여 기계 번역의 맹점을 제거할 수 있으며, 이런 공정에 대한 상세 정보를 고객에게 기꺼이 제공할 수 있습니다. 작업 툴에 내장된 여러 검사 항목을 활용하고 인적 자원을 검수에 투입하면 납품 결과물에서 수준 이하의 질 낮은 번역 결과를 걸러낼 수 있습니다.
고객이 기계 번역에 대한 두려움과 불신을 떨쳐버릴 수 있도록, 로그러스아이티는 기계 번역 작업을 위한 작업 규칙을 작성하여 준수하고 있습니다.
최상의 결과를 얻기 위해서는 대개 복수의 기계 번역 엔진을 병렬로 사용해야 합니다(문서 각부의 내용에 따라 각기 다른 기계 번역 엔진이 가장 좋은 결과를 보여주게 됩니다).
로그러스아이티는 통상 Microsoft MT, Microsoft Neural MT, LILT(adaptive MT), Google MT 등의 기계 번역 엔진을 사용하는데, 각 엔진 간 번역 결과물의 품질차가 큰 경우가 많습니다.
기계 번역의 효율성은 언어쌍(소스와 타겟 모두), 크고 깔끔하게 정리된 번역 결과 데이터베이스(corpus)의 유무 여부, 주제 영역 및 문서 구조에 좌우됩니다.
새로운 프로젝트에 기계 번역을 적용할 때 번역 결과의 품질은 크게 다를 수 있습니다. 일반적으로 기계 번역은 다음과 같은 조건에서 좋은 결과를 보여줍니다.
기존 번역을 통해 얻어진 번역 메모리가 없는 프로젝트의 경우, 기계 번역을 적용하면 비용이 눈에 띄게 절감되며 초기 프로젝트 진행 속도가 증가합니다.
기계 번역을 사용하면 번역가 운영효율이 높아집니다. 기계 번역 시 비용과 관련해 고려해야 하는 사항들은 다음과 같습니다.
기계 번역이 제대로 이루어지는 경우, 기계 번역이 제안하는 번역 문장을 기존 번역 메모리의 부정확한 퍼지 매치 문장과 유사하게 취급할 수 있습니다. 이런 경우, 기계 번역이 적용된 매 번역 유닛에 대해 예측할 수 있는 일반적인 비용 절감 범위는 5%에서 30% 사이입니다.
로컬 네트워크에 전용 독립 서버를 설치해서 사용하던 시절은 이제 옛 이야기가 되었습니다.
현대의 효율적 번역 프로세스를 운영하기 위해서는 번역가와 검수자, 그리고 PM 등, 공정에 관련된 모든 인원이 동시에 접속할 수 있게 해 주는 클라우드 기반의 CAT(computer aided translation) 툴이 필요합니다. 이 때, 모든 번역 결과와 글로서리, 그리고 번역 메모리는 클라우드에 저장됩니다.
이런 패러다임 안에서, 클라우드 기반의 기계 번역 엔진은 API를 통해 클라우드 CAT 시스템에 연결되고, 번역가는 TM을 사용하듯 기계 번역 엔진을 활용할 수 있습니다. 모든 번역 메모리가 CAT 시스템 내부에 있으므로, 기계 번역 엔진의 트레이닝 역시 자연스레 CAT 시스템 내부에서 수행되어 상당한 수고를 덜 수 있습니다. 제대로 설계된 CAT 시스템에는 이미 유명한 기계 번역 엔진들을 연결할 수 있는 커넥터가 준비되어 있으며, 선택할 수 있는 엔진의 종류는 계속 늘어나고 있습니다. 필요에 따라 기계 번역 엔진을 추가하는 것도 쉽습니다.
이미 언급했던 바와 같이, 모든 프로젝트에 단일 기계 번역 엔진을 적용하는 것은 바람직하지 않으며, 단일 프로젝트라 할지라도 하나의 기계 번역 엔진만을 사용해서 진행하는 경우 대개 최상의 결과물을 얻을 수 없습니다. 여러 기계 번역 엔진의 번역 품질이 언어쌍이나 주제 영역, 문장 구조 및 프로젝트의 특이 사항에 따라 큰 차이를 보이기 때문입니다.
기계 번역 결과물의 품질에 대해서는 광범위한 연구가 진행되고 있습니다. 공신력 있는 독일의 인공지능 연구 기관 DFKI의 최근 연구에서는 신경망 기계 번역(NMT)과 “전통적” 기계 번역(MT) 결과물의 오류를 비교하여 눈길을 끌고 있습니다. 연구 결과에 따르면, 신경망 기계 번역은 대개 “듣기 좋은” 번역 결과를 만들어 내지만 통계적 기계 번역 또는 하이브리드 기계 번역에 비해 의미상 이해하기 어려운 결과물을 자주 보여줍니다.
로그러스아이티는 여러 번역 엔진을 동시에 연결하여 최선의 결과를 선택하거나, 모든 기계 번역 결과를 무시하고 문장을 새로 번역하는 방법을 선호합니다. 로그러스아이티는 기계 번역 작업 시 Microsoft MT, Microsoft Neural MT, Google MT, LILT (반응형 MT) 등의 엔진을 사용합니다. 모든 기계 번역 엔진은 유로 서비스로 이용하므로, 번역 결과가 공공 도메인에 공유될 우려는 없습니다.
이상에서 설명한 기계 번역의 전체 공정은 다음과 같습니다.