答案是什么?单词错误率是什么意思?

牧师;博客;资源;其他资源;答案是什么?单词错误率是什么意思?

自动语音识别(ASR)技术使用机器和软件来识别和处理语音。它还可以通过声音来验证一个人的身份。这项技术近年来取得了显著进展,但并不总是产生完美的结果。

在识别语音并将其翻译为文本形式的过程中,有些词可能会被遗漏或误译。如果您在一定程度上使用过ASR,您可能会遇到“单词错误率”(WER)这个短语。

让我们来看看WER的概念,如何计算它,以及它为什么重要。

如何计算基本的错误率?

这似乎是一个复杂的想法,但计算基本WER的方法实际上非常简单。基本上,WER是错误数除以总单词数。

要获得WER,首先要将在一系列已识别的单词中出现的替换、插入和删除相加。用这个数字除以最初所说的单词总数。结果就是WER。

用一个简单的公式来说,单词错误率=(替换+插入+删除)/说出的单词数

但是你怎么把这些因素加起来呢?让我们来看看每一个:

  • 一个替换当一个单词被替换时发生(例如,“绞索”被转录为“驼鹿”)
  • 一个插入就是添加了一个没说的单词(比如,SAT变成了作文茶)
  • 一个删除当一个单词完全从文本中删除时发生(例如,“turn it around”变成了“turn around”)

假设一个人在原始转录文件中总共说了29个单词。在这些说话的词中,转录包括11个替换、插入和删除。

语音识别WER

为了得到转录的WER,你可以用11除以29得到0.379。加起来是。38,WER是38%。

错误率这个词是怎么来的?

WER的计算是基于一种叫做“Levenshtein距离”的测量方法。Levenshtein距离是两根“弦”之间差异的度量。在这种情况下,字符串是组成转录词的字母序列。

让我们看看我们之前使用的错误示例:“套索”和“驼鹿”。因为只改变了一个字母,所以Levenshtein距离只有1。因为在抄写中,“SA”加3就变成了“essay”,“T”加2就变成了“tea”,所以“SAT”和“essay tea”的距离是前者的4倍多。

为什么字错误率很重要?

WER是一个重要的通用指标,用于衡量语音识别api的性能,这些api用于支持基于语音的交互式技术,如Siri或Amazon Echo。

WER值越低,说明ASR软件识别语音的准确性越高。一个较高的WER,往往表明较低的ASR精度。

科学家、开发人员和其他使用ASR技术的人在为特定目的选择产品时可能会考虑WER。ASR开发人员还可以计算并跟踪WER,以衡量他们的软件如何改进。

WER也可以用于消费者层面,在选择自动转录服务或ASR应用程序时提供帮助。

单词错误率是衡量准确性的好方法吗?

如我们所见,WER对于选择转录或ASR服务非常重要。然而,在决定服务或软件的准确性时,这并不是您应该使用的唯一因素。以下是几个原因:

错误的来源

WER没有解释原因为什么可能发生的错误。影响WER的因素(不一定反映ASR技术本身的能力)包括:

  • 质量记录
  • 麦克风的质量
  • 演讲者的发音
  • 背景噪音
  • 不常见的名称、地点和其他专有名词
  • 技术或行业专用术语

WER字错误率话筒

人工解释

根据ASR软件的使用方式,错误可能不会显著影响可用性。如果一个人类用户可以阅读一份充满错误的文本,但仍然理解讲话者的原始意思,那么即使较高的WER也不会影响ASR的有用性。

在使用语音识别技术时,错误率是一个重要的计算指标,但还要考虑其他因素和上下文环境。

雷夫是如何衡量的?

计算的WERRev.ai并将其与其他ASR选项进行比较,我们从几个流行的播客中选择了几个有代表性的片段。我们首先通过Rev.com创建了一个由人生成的逐字参考文本。然后,我们通过Rev.ai、谷歌的视频模型、亚马逊、微软和speech hatics运行每个音频文件。之后,我们将ASR文本中的每个单词与参考文本进行比较,得到WER。

以下是WER的平均结果:

具体结果因播客章节而不同,但我们很高兴地说,Rev的自动语音识别API经得起挑战。

如果你对WER还有其他问题,牧师的语音API,或我们人类Rev.com上的转录服务,请随时与我们联系。你也可以很容易地从我们的自动转录服务

牧师也有开发了工具,你可以自己计算单词错误率,在这里尝试一下