质量三角形指标

Logrus IT 的标志性质量指标

Logrus IT 所有质量指标都是根据质量三角形方法开发的。该独特方法将用于解决文本的整体情绪的整体构成要素细节构成要素相融合。我们的标志质量指标取决于三个主要变量

  • 文本/内容总体上的整体充分性
  • 文本/内容总体上的整体可读性
  • 细节质量, 或者内容的总体“清洁度”、组成单元(例如句子、字符串等)的平均技术质量

这三个因素相互独立,并单独评估为 0-10 分,从而对满足的预设预期程度进行量化。

例如,针对营销文本,充分性和可读性的最低预期均为 8 分,而细节质量的预期不得低于 9 分(甚至 10 分,不得有任何技术问题)。

对于知识基础等其他方面的内容,由于其重点在于整体充分性,因此仅仅要求最低的可读性,则预期可明显降低:整体充分性的可接受阈值可低至 7 分,可读性低至 5 分,细节质量低至 5-6 分。

根据项目区域、预算和时间表等因素不同,预期可能相差甚大。在根据最严格的标准集(例如适用于营销材料的标准)进行测量时,内容可能无法“通过”,却以高分满足相对不那么严格的标准(适用于知识基础中的例子)。

重要的是,需要强调质量定义并非取决于我们的预期:而是根据具体项目情况调整译文偏离完美翻译(从最高“10”分调整)的容错水平。

质量指标构成要素

我们创建或使用的每个质量指标都由以下构成要素组成:

在 Logrus IT 内部创建的原始分数,用于估量半客观的整体质量

该分数的创建目的在于估量整体充分性和可读性。其介绍了整体质量估量大量需要的订单和可预测性,因此变得相当客观。

细节问题目录(文本单元等级的潜在问题)

该目录包括多种语言和技术问题类型,例如缺失或破坏标签或占位符、语法和语义错误、与国家标准不一致,以及其他区域相关问题等。

在 Logrus IT,我们尽量杜绝做无用功:取而代之的是,我们采用最好的公用问题框架 多媒体质量指标 (MQM),并引入自定义修改。

我们还可以使用其他问题目录,包括我们客户使用的专属错误分类,因为该方法在这方面为完全中立。

用于分配权重给每个细节错误类别和子类别的系统

所有问题并不都是一样的:例如,软件里关于国家标准或缺失占位符的错误通常比缺失一个逗号更严重。为反映指标中该构成要素的错误严重程度,我们需要给一个指定目录下每个问题类别或子类别分配一个相对权重。权重越高表明问题越重要,并且对质量和整体情绪的影响越大。对于无关的或因简化原因而排除在外的问题,我们可以简单地采用权重“0”。

对于每个问题种类,所发现问题的数量乘以该种类的预设权重。然后,所有种类的加权总数之和除以总字数,由此产生细节质量值。

三个可接受阈值:

  • 一个用于整体质量(充分性)
  • 一个用于整体质量(可读性)
  • 一个用于细节质量

三阈值中的任何一个都取决于内容类型、客户预期、时间和预算。每次质量评估均根据其各自的阈值(容错度)进行,只有全部三项评估均满足各自的容错度,才视为该材料可接受。

总的来说,分配给细节问题种类的总体权重和这三个可接受阈值(预设预期)构成质量向量——这是区分不同质量指标的唯一要素。

整体质量指标:简化

当预算和时间约束占据优先地位,或者需要对翻译质量做出快速而便宜的初步评价时,该指标可进行调整从而单独成为整体标准。

该简化方法无法提供深入图片,也就是说,不适用于很多应用程序。同时,它仍然可以通过花费更精细的 3D 指标所需的成本和时间的一部分,提供可靠的内容质量评估。

如果内容对一般公众(比如公关门户网站或政府网站)很重要或者在某个群体中具备强大吸引力,则该简化整体评估方法实际上可被众包,并且最终结果依然可靠。

通过描述上述三个因素的容错等级,我们能够涉及所有应用程序——从快速、便宜的众包评估到深入成熟的产品评论都不在话下。

估量整体质量

计算整体充分性或可读性评分并没有绝对之法:它只是简单地反映了专家对文本在这些方面的整体印象。我们需要单独说明不合格译文(根据滑动条上的数字)的不同种类,从而确保他们相互之间可以有效区分开来。这个任务并不简单。

没有对整体充分性和可读性评估的精确而详细的指标,整个流程取而代之引入的是可调节的任意性,从而在感知和/或实际有效性等结果方面进行妥协。这种现象之所以会发生是因为大多数文本都既算不上完美,也说不上糟糕(两种极端情况的评估都很简单),而是处于中间水平。

在 Logrus IT,我们采用最大程度的关注和客观度解决这种要害问题。如质量三角形方法文章中所说,如果滑动块的等级太少(比如 0-4 分),整体评估时将无法正常估量。从中间评估值说明不可避免的偏差译文非常重要(不同审校人员会有不同意见)。如果等级数量不足,即使只是微小的改变例如由不同审校人员完成,都可能导致结果上的大不同,并显著破坏指标的可靠性。相反,如果等级数量过多,则会过于费事、没效率——想象一下如果有 100 个质量等级会是什么感觉!

因此,我们选择了我们认为的最优范围 (0-10 分),并辅以整体充分性和可读性的定义用于大部分构成分值。换句话说,我们创建了这样一种机制,允许我们清楚地确定和区分整体可读性值的 6 分和 7 分,我们对指标和整体质量定义的基础可以追溯到 60 年代,当时自动处理咨询委员会 (ALPAC) 首次引导人们认真重视起质量评估方面的翻译充分性和可读性,并引入估量上述两个因素的原始滑动尺和定义。我们必须针对任务显著修订原始定义并进行调整。

该滑动尺和定义集是我们整体优势的一部分,因此我们(暂时)尚未打算面向公众开放,但是完整的整体指标均面向所有预订第三方 LQA 服务的 Logrus IT 客户开放。我们还很高兴为贵公司就此话题提出建议或者建议贵公司创建自定义指标,从而最好地满足您的需求。

估量细节质量

在 Logrus IT,我们针对细节质量采用传统的、基于计算的方法。模式灵活性和广泛的覆盖范围在以下多个方面实现:

1.调整问题目录是细节质量评估的基础。

完整的 MQM 框架包括 150 多个问题类型,要学的东西很多,因此用起来颇具挑战。根据上下文和预期,我们通常可以大量减少所考虑的问题之数量,而无需做出大的牺牲。“0”分权重分配给被忽略的问题,这使得指标可轻松自定义。

例如:

a.跟软件或固件故障相关的问题与印刷文本不相关,因此在处理营销材料的指标中可以忽略。

b.很多情况下,我们可以将全套问题种类缩小至一个较小数量的专属高水平种类。例如,我们可以将子种类错误词形和错误词序融合到其父种类如语法错误当中。由于这样会从流程中减少一些策略,并抑制我们分配不同权重给特定低等级问题的能力,该方法在许多情况下效果良好,并且能明显简化任务。

c.根据客户偏好,我们可以用客户采用的专属问题种类来代替 Logrus IT 开发的、基于 MQM 的问题种类。

2.调整个别问题(子)种类的权重。

根据上下文不同,问题类别会变得更加重要或不重要,其分别权重需要反映这个变化。国家标准或单元中的错误通常会视为严重错误,但若是参考书籍或维修手册,其相对权重可进一步提高,因错误的估量单元而导致错误的结果可能变得严重。


3.将审校人员分配的严重程度融合到指标中。

Logrus IT 创建的所有指标都在错误严重程度表格中拥有额外的自由度。

就拿拼写错误来说:通常来讲,跟错误目录中的许多其他错误相比,拼写错误所占权重相对较小,低于大多数情况,且不会严重歪曲语义或妨碍读者正确理解内容。但是,为“拼写错误”种类分配单独的相对权重并不能充分代表全部潜在错误。在如主页标题下的拼写错误或明显影响语义甚至导致出现轻蔑语气的拼写错误,应当和相对无关紧要的拼写错误区别处理。

在此,审校人员分配的严重程度就发挥作用。对于多数“普通”拼写错误,该因素保持在中等或低等水平,但是特别明显的错误会加重其他良性问题种类的累计相对权重。对于上文提到的此种“搅局”错误,该权重应提高 1 个或 2 个数量级。这么做能保证上下文负面影响严重超过该错误类型的“标准”权重值的问题被逐步扩大,并导致 LQA 结果失败。

Logrus IT 为大量案例准备了细节质量指标,包括固件、软件、网络材料、营销和销售文本等等。我们也很希望能根据您所选择的任何问题目录开发一个自定义指标。