Rev提高精度超过30%的新v2 ASR模型的推出
在Rev,我们相信我们有市场上最准确的语音识别服务。今天,我们将把标准设得更高我们推出了v2 ASR模型,它提供了一个与我们现有的模型相比,准确率提高了30%以上.
我们已经对我们的v2 ASR模型进行了广泛的测试,发现这种准确性的提高适用于广泛的话题、行业和口音。这一巨大的进步是两年的技术研究和最新深度学习技术对我们数百万小时转录语音的应用的结果。
技术方法
在v2之前,我们的模型遵循所谓的“混合方法”,基于组合多个单独训练的组件,这些组件使用非常强大的基本统计模型,如隐藏马尔可夫模型和高斯混合模型。尽管这种混合系统非常灵活,但对于不同的发音、不同的声学环境或多扬声器音频,它并不健壮;它从大量数据中学习的能力也较差。
我们的v2模型通过在端到端(E2E)模型中使用单个神经网络改进了这一点。在这种方法下,系统被训练成一个单一单元,直接吸收音频,并在运行过程中学习。这种方法很大程度上解决了准确性、训练、发音/口音和音阶化等关键问题。
在Rev,我们利用了这种新方法,并将其与我们的大型精确转录本数据库相结合,以训练模型,并实现上述重大改进。
基准
这就是理论,现在来看看数据。我们跟踪的两个最重要的指标是单词错误率(WER)和扬声器开关WER,我们将其定义为扬声器开关出现时周围区域的WER(周围5个单词的范围)。
V1模型 | V2模型 | 相对增益 | |
---|---|---|---|
全面的回答 | 17.09% | 11.63% | 32% |
喇叭开关回答 | 30.17% | 18.46% | 39% |
这表明,我们的新模型产生了32%的减少误差整体,并表现得更好的扬声器开关。后者在现实生活中尤其重要,比如在会议中,经常会有多个发言人不按顺序发言或发言超过对方。
下表更深入地分析了这些数据,并显示了我们所涉及的每个不同领域的单词错误率(WER)相对增益的分布。
V1模型 | V2模型 | 相对增益 | |
---|---|---|---|
全面的回答 | 17.09% | 11.63% | 32% |
业务 | 20.57% | 13.19% | 36% |
教育 | 20.80% | 14.22% | 32% |
娱乐 | 16.54% | 10.86% | 34% |
健康 | 18.30% | 12.17% | 33% |
法律 | 23.58% | 15.31% | 35% |
政治 | 18.65% | 13.41% | 28% |
宗教 | 16.62% | 10.94% | 34% |
科学 | 13.71% | 9.23% | 33% |
体育 | 21.41% | 14.40% | 33% |
这些数据基于我们的内部测试套件。
开始使用v2 ASR
上面描述的v2 ASR模型是我们为2022年3月7日的新用户提供的默认生产模型,您今天就可以开始使用。当没有誊写员
选项,或者如果誊写员
选项显式设置为machine_v2
,音频文件将被v2 ASR模型转录。
下面是一个在API调用中使用v2模型的例子:
curl——location——请求POST 'https://api.rev。ai/speech - totext/v1/jobs' \——header '授权:承载YOUR-ACCESS-TOKEN-HERE' \——header '内容类型:application/json' \——data-raw '{"media_url": "https://www.rev.ai/FTC_Sample_1.mp3",}'
缺省情况下还没有迁移到v2模型的现有用户(迁移日期见下文)应该明确包括誊写员:machine_v2
参数。这里有一个例子:
curl——location——请求POST 'https://api.rev。ai/speech - totext/v1/jobs' \——header '授权:承载you - access - token - here ' \——header '内容类型:application/json' \——data-raw '{"media_url": "https://www.rev.ai/FTC_Sample_1.mp3", "转录器":"machine_v2",}'
这也适用于SDK操作,如下所示为我们的Node SDK示例:
/ /……//初始化客户端与您的访问令牌var客户端=新的RevAiApiClient(accessToken);//设置job选项const jobOptions ={抄写器:'machine_v2' //抄写器的可选值};//提交文件var job = await client。submitJobUrl (mediaUrl jobOptions);/ /……
对于现有的现收现付(PAYG)用户和企业用户,从2022年4月7日(PAYG用户)和2022年9月7日(企业用户)起,v2 ASR模型将自动成为默认的ASR模型。一旦默认为v2 ASR模型,将不再需要指定誊写员:machine_v2
在API和SDK操作。v1 ASR模型和相关用户偏好将于2022年9月8日弃用。
了解更多关于我们异步的语音API而且转录的选项(包括从v1到v2迁移路线图的摘要)。
额外的笔记
注意以下几点:
- v2目前只支持异步模式和英文输入。流媒体支持即将推出,目前正在进行封闭测试。联系support@rev.ai如果你想参与测试。
- v2模型的转录定价与之前的模型相同。如需更多价格信息,请联系sales@rev.ai.
- v2模型下的置信度得分虽然更准确,但可能比前一个模型下计算的置信度得分略低。任何依赖于可信度评分计算的客户逻辑都需要相应地进行调整。
- 据估计,v2 ASR的周转时间比之前的模型大约快33%-40%。
我们对我们新的v2 ASR模型感到兴奋,并希望听到您的反馈,了解更多关于您是如何使用它的。请通过电子邮件通知我们support@rev.ai.