答案是什么?单词错误率是什么意思?
自动语音识别(ASR)技术使用机器和软件来识别和处理语音。它还可以通过声音来验证一个人的身份。这项技术近年来取得了显著进展,但并不总是产生完美的结果。
在识别语音并将其翻译为文本形式的过程中,有些词可能会被遗漏或误译。如果您在一定程度上使用过ASR,您可能会遇到“单词错误率”(WER)这个短语。
让我们来看看WER的概念,如何计算它,以及它为什么重要。
如何计算基本的错误率?
这似乎是一个复杂的想法,但计算基本WER的方法实际上非常简单。基本上,WER是错误数除以总单词数。
要获得WER,首先要将在一系列已识别的单词中出现的替换、插入和删除相加。用这个数字除以最初所说的单词总数。结果就是WER。
用一个简单的公式来说,单词错误率=(替换+插入+删除)/说出的单词数
但是你怎么把这些因素加起来呢?让我们来看看每一个:
- 一个替换当一个单词被替换时发生(例如,“绞索”被转录为“驼鹿”)
- 一个插入就是添加了一个没说的单词(比如,SAT变成了作文茶)
- 一个删除当一个单词完全从文本中删除时发生(例如,“turn it around”变成了“turn around”)
假设一个人在原始转录文件中总共说了29个单词。在这些说话的词中,转录包括11个替换、插入和删除。
为了得到转录的WER,你可以用11除以29得到0.379。加起来是。38,WER是38%。
错误率这个词是怎么来的?
WER的计算是基于一种叫做“Levenshtein距离”的测量方法。Levenshtein距离是两根“弦”之间差异的度量。在这种情况下,字符串是组成转录词的字母序列。
让我们看看我们之前使用的错误示例:“套索”和“驼鹿”。因为只改变了一个字母,所以Levenshtein距离只有1。因为在抄写中,“SA”加3就变成了“essay”,“T”加2就变成了“tea”,所以“SAT”和“essay tea”的距离是前者的4倍多。
为什么字错误率很重要?
WER是一个重要的通用指标,用于衡量语音识别api的性能,这些api用于支持基于语音的交互式技术,如Siri或Amazon Echo。
WER值越低,说明ASR软件识别语音的准确性越高。一个较高的WER,往往表明较低的ASR精度。
科学家、开发人员和其他使用ASR技术的人在为特定目的选择产品时可能会考虑WER。ASR开发人员还可以计算并跟踪WER,以衡量他们的软件如何改进。
WER也可以用于消费者层面,在选择自动转录服务或ASR应用程序时提供帮助。
单词错误率是衡量准确性的好方法吗?
如我们所见,WER对于选择转录或ASR服务非常重要。然而,在决定服务或软件的准确性时,这并不是您应该使用的唯一因素。以下是几个原因:
错误的来源
WER没有解释原因为什么可能发生的错误。影响WER的因素(不一定反映ASR技术本身的能力)包括:
- 质量记录
- 麦克风的质量
- 演讲者的发音
- 背景噪音
- 不常见的名称、地点和其他专有名词
- 技术或行业专用术语
人工解释
根据ASR软件的使用方式,错误可能不会显著影响可用性。如果一个人类用户可以阅读一份充满错误的文本,但仍然理解讲话者的原始意思,那么即使较高的WER也不会影响ASR的有用性。
在使用语音识别技术时,错误率是一个重要的计算指标,但还要考虑其他因素和上下文环境。
雷夫是如何衡量的?
计算的WERRev.ai并将其与其他ASR选项进行比较,我们从几个流行的播客中选择了几个有代表性的片段。我们首先通过Rev.com创建了一个由人生成的逐字参考文本。然后,我们通过Rev.ai、谷歌的视频模型、亚马逊、微软和speech hatics运行每个音频文件。之后,我们将ASR文本中的每个单词与参考文本进行比较,得到WER。
以下是WER的平均结果:
具体结果因播客章节而不同,但我们很高兴地说,Rev的自动语音识别API经得起挑战。
如果你对WER还有其他问题,牧师的语音API,或我们人类Rev.com上的转录服务,请随时与我们联系。你也可以很容易地从我们的自动转录服务.
什么是转录错误?
无论是商务会议还是法律面试,记录对于创建详细的书面记录以供日后参考是非常宝贵的。没有……
人工智能转录服务:人工智能语音到文本的好处
什么是人工智能转录服务?语音到文本的抄写是一门古老的艺术。但今天,它的最新版本感觉就像科幻小说。人工智能转录是。
什么是语音识别中的词汇表?
任何自动语音识别系统的关键部分都是词典。这个词很难定义,因为有时候…