跳到内容

播客挑战:测试Rev.ai的语音识别准确性

Rev.ai准确性挑战:播客对语音识别性能

>博客>人工智能>播客挑战:测试Rev.ai的语音识别准确性

在WED演讲研发团队中,我们不断努力提高Rev.ai的自动化语音识别(ASR)的准确性。

因此,我们花了很多时间为客户使用语音识别技术创建了许多不同场景的测试套件。其中一个用例?想要的播放者生产成绩单他们的表演。为了评估我们的ASR适用于特定需求的工作原理,我们收集了一些最流行的播客,并将它们用作测试以确定如何准确rev.ai执行。

在本博客中,我们将首先展示我们为这些测试获得的结果,然后我们将讨论生成测试套件所需的步骤。最后,我们将检查这些特定播客的细节,以说明测试套件的难度。

我们希望这能让您了解我们如何考虑我们的ASR系统的准确性,并展示我们如何抵御我们的竞争。

Rev.ai的自动化语音识别有多准确?

首先,一些背景。我想添加一个免责声明,我们,Rev Speech的研发团队,使用一个专有的工具包来计算单词错误率(WER)。从根本上说,软件仍然计算相同的度量,但我们的方法考虑了同义词、拼写错误和数字表示(例如,“10”作为“10”)。因此,我们的方法使我们能够为每个供应商计算出可能的最佳WER。我们希望能够在以后的文章中分享这种方法,解释该技术的细节。

此外,作为提醒读者,使用以下公式计算WER:

作为基线,下图显示了截至2020年8月每个语音识别服务的准确性结果:

建立测试套房

现在,让我们来看看我们如何建造我们的测试套件。

首先,作为绝对的黄金规则,需要确保所选择的数据不用于您正在测试的训练中。在随机选择播客中包含在此测试套件中,我们的团队务必仔细选择不为我们的ASR模型培训的音频文件,以防止任何不公平的优势

其次,音频的量需要足够大,以便对任何分析都有重要和有意义的错误率。这就是为什么我们的团队仔细选择了30个剧集,这增加了27.5小时的演讲。我们认为这足以评估模型的准确性。

最后,为了正确测试ASR模型,即使在给定域内,也应始终考虑尽可能宽的一系列声学条件。这款测试套件涵盖了大量的播客类型,具有许多不同的扬声器:具有声音效果的讲故事(歧视),群体讨论具有大量扬声器重叠(读取)和脚本新闻播客(每日)。

为了获得准确的成绩单,我们将30播客发送给人力rev.com服务,选择逐字选项(包括尽可能多的单词和重复),还包括重要词文的字典,以确保正确名称,像kwame kilpatrick.,被正确转录。

详细的测试套件概述

让我们来看看这个测试套件中包含的数据类型。

播客列表和相应的剧集

以下包含在此测试套件中包含的播客列表。

  • 文件1:美国生活:第661集社会与文化
  • 文件2:阅读:没有原因的反叛喜剧
  • 文件3:阅读:香料或酸奶油?喜剧
  • 文件4:每日:诋毁佛罗里达州的计划重述️新闻
  • 文件5:每日:加利福尼亚野火️新闻
  • 文件6:蛾无线电时刻:希望和荣耀️艺术
  • 文件7:蛾无线电时刻:鹿肉舞蹈动作和母性️艺术
  • 文件8:播客的颜色,女性创建播客网络ft。@spqpodcast的Ahyiana社会与文化
  • 文件9:播客的颜色,在@latinoswholunch的Podcasting Ft @favyfav中创建自己的车道社会与文化
  • 文件10:播客的颜色,柏瑞播客提示社会与文化
  • 文件11:重量级:第9集#9 MILT️新闻
  • 文件12:重量级:第10章玫瑰️新闻
  • 文件13:Cremetown,即将推出:第2季真实犯罪
  • 文件14:Creametown,奖金集:Buddy Cianci ......音乐️真正的犯罪
  • 文件15:Cremetown,第18章:普罗维登斯王子️真正的犯罪
  • 文件16:我们赢了豆荚拯救美国。️新闻
  • 文件17:豆荚拯救美国,选举很少!️新闻
  • 文件18:每日Zeitgeist,基督教黑豹?️新闻
  • 档案19:纽约人:作家的声音,汤米橙色读了国家️艺术
  • 文件20:Skidmarks Show,第66集休闲
  • 文件21:食物心灵,剧集#148️健康
  • 档案22:我最喜欢的谋杀案与凯伦克里夫夫夫人和格鲁吉亚硬王,第145集第145集
  • 文件23:Sorta Awesome,第169集第169集
  • 档案24:Drinkin'Fros.,第338集第338章社会与文化
  • 文件25:来自Emmaus的道路,我们拥有的是神圣的,因为我们是神圣的(2018年10月14日)。️宗教与灵性
  • 档案26:比尔布纳威尔秀,Vince Verhei&Doug Kyed️休闲
  • 档案27:罗斯·博尔伦播客,狐猴是重要的粉碎机️社会与文化
  • 档案28:叉起来:一个暴徒厨房播客,所有的卡斯特都与Natalie Eva Marie️健康
  • 文件29:美国惨败,奖金集中与斯蒂芬Dubner of FreeSonicics无线电️社会与文化
  • 文件30:恢复电梯,第195集:瓶子应该怎么说?️健康

的类型

播客都有不同的类型。我们选择了各种各样的类型,涵盖那里的大部分流行性类型:

类型 播客的数量
社会与文化 8.
消息 7.
真正的犯罪 4.
艺术 3.
健康 3.
喜剧 2
闲暇 2
宗教与灵性 1

按长度

我们选择足够的播客,以足够长的测试套件,约为27.5小时的音频。选择的大多数播客在60分钟以下低于60分钟,但我们还包括一些更长的剧集,以便能够为更长的文件测试我们的系统的行为。

图3:测试套件中使用的播客长度的分布。

发言者

音频对于ASR有多困难的关键指标是存在多少个扬声器。再次,我们确保在我们选择的播客中包含足够的扬声器。其中一些剧集只有两个扬声器的整个文件,有些剧本有多达35个发言者(例如,具有许多角色的真正犯罪播客)。当然,任何给定的播客中的任何第三方广告都被视为新的发言者。

图4:测试套件中使用的播客中扬声器数量的分布。

由SNRS.

AUDIOS如何对ASR进行困难的另一个关键指标是信噪比(SNR)级别。在这里,我们共享测试套件中包含的所有播客的SNR水平的分布。

这里,我们显示每段(DB)测量的峰值SNR的平均值,其中段定义为1.92秒秒。

我们可以看到大约6个播客有我们认为稍微更多的嘈杂的声学环境(<30 dB),其余的在工作室质量录音中非常好。

图5:测试套件中所有播客的平均峰值SNR的分布。

结果详细概述了结果

以下是由文件组织的结果。反对其他四个竞争对手,Rev.ai在30张文件中有18个胜利 - 60%。在第二个地方来了歌词v2 api,11胜。有趣的是,Microsoft比文件13上的其他API更好地执行。

文件 rev.ai. 言语v2 谷歌视频 微软 亚马逊
1 5.85% 6.29% 7.72% 8.32% 8.22%
2 19.4% 18.82% 20.05% 20.32% 23.28%
3. 21.99% 20.92% 21.74% 22.33% 26.3%
4. 9.7% 7.54% 10.06% 10.35% 9.6%
5. 8.61% 8.18% 8.75% 10.59% 10.4%
6. 6.34% 7.39% 8.59% 9.56% 9.5%
7. 4.17% 5.67% 6.46% 6.85% 7.01%
8. 6.11% 9.26% 9.4% 10.15% 10.56%
9. 12.12% 14.46% 14.54% 15.37% 16.35%
10. 10.24% 11.36% 10.88% 12.01% 13.93%
11. 14.46% 13.03% 13.86% 16.06% 16.48%
12. 9.4% 9.61% 10.39% 11.66% 12.33%
13. 19.44% 18.63% 16.71% 12.67% 19.83%
14. 19.74% 16.5% 17.2% 19.66% 21.57%
15. 18.39% 18.94% 20.67% 21.02% 23.03%
16. 13.34% 14.14% 15.84% 16.52% 16.89%
17. 11.46% 12.46% 13.92% 14.73% 15.04%
18. 19.44% 20.09% 21.78% 22.55% 25.73%
19. 5.66% 5.51% 6.14% 7.83% 7.72%
20. 19.6% 20.47% 20.92% 21.18% 25.63%
21. 4.96% 5.65% 6.74% 6.77% 7.29%
22. 19.73% 18.31% 19.64% 20.37% 23.81%
23. 8.69% 9.59% 10.53% 11.1% 12.39%
24. 21.71% 23.47% 26.25% 26.36% 28.68%
25. 4.71% 3.92% 4.19% 5.43% 5.98%
26. 14.85% 17.28% 19.27% 18.5% 21.61%
27. 10.43% 11.97% 11.82% 13.05% 14.04%
28. 19.88% 19.38% 20.87% 22.04% 25.53%
29. 13.91% 13.65% 15.48% 16.62% 17.96%
30. 10.08% 12.79% 12.81% 14.38% 17.0%