기계 번역

기계 번역

기계 번역(MT: Machine Translation)은 찬반이 갈리는 주제입니다. 우리는 지난 수 년간 기계 번역에 대한 우려의 목소리와 중립적인 의견, 그리고 이에 찬성하는 의견을 들어왔습니다.

로그러스아이티는 실용주의 사상에 입각하여 기계 번역이 비용 절약과 생산성 최적화에 도움이 되는 여러 요인 중 하나라고 보고 있습니다. 기계 번역은 시간 및 비용의 제약으로 인해 인적 자원 투입이 불가능한 번역 작업을 가능하게 해 줄 대안을 제공합니다.

고객이 기계 번역을 기피하는 경우, 문제는 기계 번역 자체에 있는 것이 아니라 인적 자원의 검수 부족이나 적절한 결과물 품질 관리 공정의 부재, 또는 수준 이하의 결과물 납품을 야기하는 부실한 작업 공정에 있습니다. 로그러스아이티는 총체적인 다중 번역 및 수준 높은 품질 관리 시스템을 활용하여 기계 번역의 맹점을 제거할 수 있으며, 이런 공정에 대한 상세 정보를 고객에게 기꺼이 제공할 수 있습니다. 작업 툴에 내장된 여러 검사 항목을 활용하고 인적 자원을 검수에 투입하면 납품 결과물에서 수준 이하의 질 낮은 번역 결과를 걸러낼 수 있습니다.

고객이 기계 번역에 대한 두려움과 불신을 떨쳐버릴 수 있도록, 로그러스아이티는 기계 번역 작업을 위한 작업 규칙을 작성하여 준수하고 있습니다.

 

로그러스아이티 기계 번역 작업 수칙

  • 번역 공정에 기계 번역이 사용되는 경우 언제나 고객에게 이를 고지해야 하며, 이로 인한 비용 절감이 상당할 경우, 이윤은 고객과 함께 나눕니다.
  • 고객이 기계 번역을 피하도록 명확하게 요청한 프로젝트의 경우에는 기계 번역을 사용하지 않습니다.
  • 모든 기계 번역/신경망 기계 번역(NMT) 매치와 번역 메모리(TM) 매치는 번역가 또는 검수자가 검토해야 합니다.
  • 기계 번역 결과물의 품질이 전통적인 번역가의 번역 품질보다 낮아서는 안 됩니다.
  • 번역 메모리 및 용어집(Termbase) 매치는 언제나 기계 번역 제안 문구에 우선하여 적용해야 합니다.
  • 기계 번역은 적절한 TM 매치가 없으며, 기계 번역이 TM과 유사한 문구를 제안하는 번역 유닛에 대해서만 적용합니다. 번역가는 항상 소스 원문 대해 번역 메모리와 기계 번역의 제안 문구를 명확하게 구분할 수 있어야 하며, 기계 번역 문구에는 각별하게 주의를 기울여야 합니다.
  • 특정 언어쌍이나 영역 또는 프로젝트군에 가장 적합한 기계 번역 엔진을 사용할 수 있도록 최선을 다합니다.

최상의 결과를 얻기 위해서는 대개 복수의 기계 번역 엔진을 병렬로 사용해야 합니다(문서 각부의 내용에 따라 각기 다른 기계 번역 엔진이 가장 좋은 결과를 보여주게 됩니다).

로그러스아이티는 통상 Microsoft MT, Microsoft Neural MT, LILT(adaptive MT), Google MT 등의 기계 번역 엔진을 사용하는데, 각 엔진 간 번역 결과물의 품질차가 큰 경우가 많습니다.

  • 로그러스아이티는 고객 프로젝트에 무료 기계 번역 엔진을 사용하지 않습니다. 모든 무료 기계 번역 엔진은 번역 결과를 공공 도메인에 업로드하므로 고객과의 기밀 준수 서약(NDA) 및 계약을 위배하게 됩니다.
  • 로그러스아이티는 기계 번역 사용 시 축적된 번역 결과물(코퍼스, corpus)이 각자의 기계 번역 엔진 내부에만 머물 수 있도록 하는 수준의 사용 권한을 유지합니다. 해당 수준의 사용 권한을 보유한 경우, 대부분의 영역 및 제품군 문서의 기계 번역 시 필요한 기계 번역 엔진 트레이닝을 지원하는 경우가 많습니다.

 

우수한 기계 번역 결과의 조건

기계 번역의 효율성은 언어쌍(소스와 타겟 모두), 크고 깔끔하게 정리된 번역 결과 데이터베이스(corpus)의 유무 여부, 주제 영역 및 문서 구조에 좌우됩니다.

새로운 프로젝트에 기계 번역을 적용할 때 번역 결과의 품질은 크게 다를 수 있습니다. 일반적으로 기계 번역은 다음과 같은 조건에서 좋은 결과를 보여줍니다.

  • 소스와 타겟 언어가 동일 언어군에 속하는 경우. 예를 들어, 영어를 독일어, 프랑스어, 스페인어, 이탈리아어 등으로 번역하는 경우에 번역 결과의 품질은 매우 우수해집니다.
  • 중국어를 게르만어파나 유러피언 언어 계열(영어, 독일어 등)로 번역하는 경우 번역 결과가 우수하며, 마치 인간이 번역한 듯한 결과를 보이기도 하는데, 이는 중국어가 가진 구조적 속성 및 표의적 속성(대부분의 유럽 언어는 표음 언어입니다)에 기인합니다. 게다가 중국어 문장의 단어 배열 순서는 영어의 그것과 매우 흡사합니다.
  • 번역할 내용이 일반적으로 잘 알려진 경우(코퍼스 사이즈가 큰 경우)
  • 문서 구조가 정형화되어 있으며, 반복적이고 예측 가능한 경우
  • 문서에 사용된 문장과 어구가 비교적 짧고 복잡한 문법이 포함되지 않은 경우
  • 해당 제품군이나 주제에 대해 품질 좋은 번역 메모리가 있고, 이 메모리를 사용하여 기계 번역 엔진 트레이닝이 가능한 경우(번역 메모리의 품질을 가늠하는 요소로는 용어와 번역의 일관성이 있습니다)

기존 번역을 통해 얻어진 번역 메모리가 없는 프로젝트의 경우, 기계 번역을 적용하면 비용이 눈에 띄게 절감되며 초기 프로젝트 진행 속도가 증가합니다.

 

예상되는 비용 절감 효과

기계 번역을 사용하면 번역가 운영효율이 높아집니다. 기계 번역 시 비용과 관련해 고려해야 하는 사항들은 다음과 같습니다.

  • 기계 번역 엔진을 ”보안(private)” 모드로 사용하면 비용이 절약됩니다(엔진에 따라 단어 당 최대 5 센트).
  • 기계 번역을 올바르게 적용하려면 여러 가지 검사를 수행해야 하므로 인적 자원 투입이 증가할 수 있습니다.
  • 기계 번역을 통해 비용을 절감할 수 있는 부분은 신규 문장 또는 신규 번역 유닛에 한정됩니다. 번역 메모리를 활용해서 재사용한 번역 유닛에 대해서는 비용 절감 효과가 없습니다.

기계 번역이 제대로 이루어지는 경우, 기계 번역이 제안하는 번역 문장을 기존 번역 메모리의 부정확한 퍼지 매치 문장과 유사하게 취급할 수 있습니다. 이런 경우, 기계 번역이 적용된 매 번역 유닛에 대해 예측할 수 있는 일반적인 비용 절감 범위는 5%에서 30% 사이입니다.

 

번역 공정에 기계 번역 공정 포함하기

로컬 네트워크에 전용 독립 서버를 설치해서 사용하던 시절은 이제 옛 이야기가 되었습니다.

현대의 효율적 번역 프로세스를 운영하기 위해서는 번역가와 검수자, 그리고 PM 등, 공정에 관련된 모든 인원이 동시에 접속할 수 있게 해 주는 클라우드 기반의 CAT(computer aided translation) 툴이 필요합니다. 이 때, 모든 번역 결과와 글로서리, 그리고 번역 메모리는 클라우드에 저장됩니다.

이런 패러다임 안에서, 클라우드 기반의 기계 번역 엔진은 API를 통해 클라우드 CAT 시스템에 연결되고, 번역가는 TM을 사용하듯 기계 번역 엔진을 활용할 수 있습니다. 모든 번역 메모리가 CAT 시스템 내부에 있으므로, 기계 번역 엔진의 트레이닝 역시 자연스레 CAT 시스템 내부에서 수행되어 상당한 수고를 덜 수 있습니다. 제대로 설계된 CAT 시스템에는 이미 유명한 기계 번역 엔진들을 연결할 수 있는 커넥터가 준비되어 있으며, 선택할 수 있는 엔진의 종류는 계속 늘어나고 있습니다. 필요에 따라 기계 번역 엔진을 추가하는 것도 쉽습니다.

이미 언급했던 바와 같이, 모든 프로젝트에 단일 기계 번역 엔진을 적용하는 것은 바람직하지 않으며, 단일 프로젝트라 할지라도 하나의 기계 번역 엔진만을 사용해서 진행하는 경우 대개 최상의 결과물을 얻을 수 없습니다. 여러 기계 번역 엔진의 번역 품질이 언어쌍이나 주제 영역, 문장 구조 및 프로젝트의 특이 사항에 따라 큰 차이를 보이기 때문입니다.

기계 번역 결과물의 품질에 대해서는 광범위한 연구가 진행되고 있습니다. 공신력 있는 독일의 인공지능 연구 기관 DFKI의 최근 연구에서는 신경망 기계 번역(NMT)과 “전통적” 기계 번역(MT) 결과물의 오류를 비교하여 눈길을 끌고 있습니다. 연구 결과에 따르면, 신경망 기계 번역은 대개 “듣기 좋은” 번역 결과를 만들어 내지만 통계적 기계 번역 또는 하이브리드 기계 번역에 비해 의미상 이해하기 어려운 결과물을 자주 보여줍니다.

로그러스아이티는 여러 번역 엔진을 동시에 연결하여 최선의 결과를 선택하거나, 모든 기계 번역 결과를 무시하고 문장을 새로 번역하는 방법을 선호합니다.  로그러스아이티는 기계 번역 작업 시 Microsoft MT, Microsoft Neural MT, Google MT, LILT (반응형 MT) 등의 엔진을 사용합니다. 모든 기계 번역 엔진은 유로 서비스로 이용하므로, 번역 결과가 공공 도메인에 공유될 우려는 없습니다.

이상에서 설명한 기계 번역의 전체 공정은 다음과 같습니다.

  1. 클라우드 기반의 CAT 시스템 상에서 새 프로젝트 작성
    • 번역 메모리와 글로서리, 기계 번역 엔진 연결 과정 포함
  1. 번역가 및 검수자 지정
  2. 각 유닛에 대해 번역 메모리 퍼지 매치와 여러 기계 번역 엔진의 제시 문구를 번역가가 확인 및 비교
    • 번역 메모리 매치 결과를 목록 최상단에 배치하고 우선적으로 사용
    • 기계 번역 제시 문구는 적절한 번역 메모리 매치가 없는 경우에만 사용
    • 번역가는 각 제시 문구의 소스를 명확하게 식별할 수 있으므로, 기계 번역 제시 문구를 사용할 때 각별한 주의를 기울일 수 있음
  1. 특별한 검수 작업 없이 사용할 수 있는 기계 번역 문구에 특수한 속성을 부여. 번역 유닛의 최종 적용은 번역 공정과 분리되어 진행
    • 최종 적용 시 필터를 적용하여 기계 번역 결과를 모두 선택한 후 인간 검수자가 모든 기계 번역 결과를 확인하고 수정할 수 있도록 함
  1. 완성된 번역문을 클라우드의 번역 메모리로 업로드
이 웹사이트는 쿠키를 사용합니다. 쿠키 파일 사용에 동의하려면 "허용" 버튼을 누르세요. 개인정보 보호 정책