跳到内容

Rev推出了改进自动语音识别基准测试的工具

牧师

2021年5月10日

Rev-Mailles-New-Tools-To完善的自动语音识别 - 基准测试

牧师;博客;牧师宣布;Rev推出了改进自动语音识别基准测试的工具

说到自动语音识别(ASR)技术,准确性就是一切。如果您的ASR系统的输出充斥着错误,那么潜在客户很有可能会寻找其他供应商。

但是评估ASR引擎的准确性是很棘手的,特别是考虑到过去一年改变世界的事件已经改变了用户的期望。现在,用户希望ASR系统能够理解各种声学环境下的各种声音,从播客、季度收益电话会议到直播视频会议和虚拟活动。

鉴于这些客户需求,很明显,当前ASR精度基准测试方法无效。这是出于几个原因:

  • 最常用的数据集包含超过五年的音频文件,并且它们都不具有现代用户所需的各种声音或声学环境。
  • 这些数据集也不能代表今天的用例——包含日期和数字的长格式、实体特定的音频。
  • 这些传统的评估数据集很少可以免费使用,这限制了只有大型研究机构或资金充足的私营公司才能访问这些数据集。

这就是为什么Rev激动地宣布我们新的,免费的工具集,旨在使ASR准确性测试更容易,更容易为每个人。这些工具包括:

  • Earnings-21数据集,一个全新的评估数据集,包含从2020年开始的39小时未经编辑的长格式音频;和
  • FSTAlign,一个使用文本对齐的自由开源工具,可以快速计算ASR成绩单中的字错误率。

使用这个版本,用户可以评估任何ASR供应商(是的,包括Rev!)的WER,并比较它们,以确定哪一个最适合您的需求。

一个更新、更好的评估数据集

“收益-21”数据集包括来自9个不同金融行业的39个小时的原始、未经编辑的收益电话,以及每个电话的注释丰富的文本(带有标点符号、真实大小写和命名实体)。

与传统的评估数据集不同 - 包括来自LibrisPeech,CallHome和其他人的集合 - 我们的新收益-21数据集仅包含2020年的音频。此内容很重要,因为这么多行业在大流行期间转移到远程运营,包括像这样的行话繁重的行业金融和法律产业。

世界向远程的移动从根本上改变了ASR引擎的词汇-音频变得更长,包含更具体的术语。《收益-21》包含了长形式、实体密集的语言,旨在让客户、开发人员和研究人员能够在自然环境中对ASR系统进行基准测试,特别关注命名实体识别(NER)。

这也是ASR在信任和可访问性方面迈出的令人兴奋的一步。earning -21提供了一个公开的基准,四个商业ASR模型,两个用开源工具构建的内部模型,以及一个开源的LibriSpeech模型,以帮助语音到文本提供商使用他们知道的引擎过程的音频类型来计算他们的WER结果(也被称为“精选”)。

一个简单的,可访问的方法来计算字错误率

除了我们更新、更相关的数据集之外,我们还提供了一个我们命名的资源FSTAlign.这个公开的、免费使用的工具可以通过利用NER注释快速计算WER。这个公开的、免费使用的工具分析两份可比较的文本,解读它们的差异,并计算WER。

你只需要输入a真实记录以及相应的asr生成的转录本。有了这些输入,FSTAlign将分析两者,解读它们的差异,并生成WER分析。

与市场上的其他文本对齐工具不同,FSTAlign可以处理长格式音频,并且在分析大文件时不会出现故障。此外,FSTAlign能够更好地计算与日期或数字相关的高级WER错误(比如引擎错误地将“401k”输出为“four oh one kay”)。

通过这些版本,行业和学术界的语音识别社区可以推动更复杂音频文件的研究,开发者可以自己看到市场上谁拥有最好的WER。而且,作为业界最精确的ASR引擎,我们非常有信心Rev将脱颖而出。

但只有一个办法能知道!

访问我们的免费工具,看看自己!