答案是什么?单词错误率是什么意思?

所有的资源

牧师;博客;资源;其他资源;答案是什么?单词错误率是什么意思?

自动语音识别(ASR)技术使用机器和软件来识别和处理语音。它还可以通过声音来验证一个人的身份。这项技术近年来取得了显著进展，但并不总是产生完美的结果。

在识别语音并将其翻译为文本形式的过程中，有些词可能会被遗漏或误译。如果您在一定程度上使用过ASR，您可能会遇到“单词错误率”(WER)这个短语。

让我们来看看WER的概念，如何计算它，以及它为什么重要。

尝试Rev的免费单词错误率计算器工具

如何计算基本的错误率?

这似乎是一个复杂的想法，但计算基本WER的方法实际上非常简单。基本上，WER是错误数除以总单词数。

要获得WER，首先要将在一系列已识别的单词中出现的替换、插入和删除相加。用这个数字除以最初所说的单词总数。结果就是WER。

用一个简单的公式来说，单词错误率=(替换+插入+删除)/说出的单词数

但是你怎么把这些因素加起来呢?让我们来看看每一个:

一个替换当一个单词被替换时发生(例如，“绞索”被转录为“驼鹿”)
一个插入就是添加了一个没说的单词(比如，SAT变成了作文茶)
一个删除当一个单词完全从文本中删除时发生(例如，“turn it around”变成了“turn around”)

假设一个人在原始转录文件中总共说了29个单词。在这些说话的词中，转录包括11个替换、插入和删除。

为了得到转录的WER，你可以用11除以29得到0.379。加起来是。38,WER是38%。

前5个小时免费试用Rev AI语音识别API

错误率这个词是怎么来的?

WER的计算是基于一种叫做“Levenshtein距离”的测量方法。Levenshtein距离是两根“弦”之间差异的度量。在这种情况下，字符串是组成转录词的字母序列。

让我们看看我们之前使用的错误示例:“套索”和“驼鹿”。因为只改变了一个字母，所以Levenshtein距离只有1。因为在抄写中，“SA”加3就变成了“essay”，“T”加2就变成了“tea”，所以“SAT”和“essay tea”的距离是前者的4倍多。

为什么字错误率很重要?

WER是一个重要的通用指标，用于衡量语音识别api的性能，这些api用于支持基于语音的交互式技术，如Siri或Amazon Echo。

WER值越低，说明ASR软件识别语音的准确性越高。一个较高的WER，往往表明较低的ASR精度。

科学家、开发人员和其他使用ASR技术的人在为特定目的选择产品时可能会考虑WER。ASR开发人员还可以计算并跟踪WER，以衡量他们的软件如何改进。

WER也可以用于消费者层面，在选择自动转录服务或ASR应用程序时提供帮助。

试试自动语音识别

单词错误率是衡量准确性的好方法吗?

如我们所见，WER对于选择转录或ASR服务非常重要。然而，在决定服务或软件的准确性时，这并不是您应该使用的唯一因素。以下是几个原因:

错误的来源

WER没有解释原因为什么可能发生的错误。影响WER的因素(不一定反映ASR技术本身的能力)包括:

质量记录
麦克风的质量
演讲者的发音
背景噪音
不常见的名称、地点和其他专有名词
技术或行业专用术语

人工解释

根据ASR软件的使用方式，错误可能不会显著影响可用性。如果一个人类用户可以阅读一份充满错误的文本，但仍然理解讲话者的原始意思，那么即使较高的WER也不会影响ASR的有用性。

在使用语音识别技术时，错误率是一个重要的计算指标，但还要考虑其他因素和上下文环境。

雷夫是如何衡量的?

计算的WERRev.ai并将其与其他ASR选项进行比较，我们从几个流行的播客中选择了几个有代表性的片段。我们首先通过Rev.com创建了一个由人生成的逐字参考文本。然后，我们通过Rev.ai、谷歌的视频模型、亚马逊、微软和speech hatics运行每个音频文件。之后，我们将ASR文本中的每个单词与参考文本进行比较，得到WER。

参见WER挑战播客的全部结果

以下是WER的平均结果: