跳到内容

4自动语音识别(ASR)服务的关键方面

Guv Callahan.

3月23日,2021年

四关键方面 - 自动语音 - 识别 -  ASR-Service-Rev

>博客>人工智能>4自动语音识别(ASR)服务的关键方面

在今天不断的社会中,消费者预计效率。首先,他们想在熟食晚宴时快速打开一首单个口头命令的歌曲。但由于持续发展自动演讲(ASR)技术,消费者现在可以做得更多。

ASR是一个子场人工智能(人工智能),计算机识别语音并将其转换成文本。这个过程通常也被称为“语音转换文本”。

该过程可以应用于实时语音或音频/视频录制。简而言之,ASR是可以将文本指定为您的iPhone或阅读语音邮件的抄本中的技术。

虽然其日常应用程序很大,ASR也在转变多个行业的业务。当音频或视频文件转换为可搜索的成绩单时,媒体和娱乐创意可以更快地生产内容;教育机构可以通过视频会议软件的实时字幕提供安全,可访问,远程学习;通过异步,机器生成的转录,研究人员可以在几分钟内开始分析定性数据。这些只是语音到文本申请如何影响社会的一些例子。

ASR技术像我们自己的技术rev.ai.专门提供基于云的API,以帮助开发人员构建由语音到文本提供支持的应用程序。如果要将语音到文本功能合并到您的产品中,则为Rev.ai的ASR API可以帮助您比竞争对手更快地上市。

在ASR的60年的存在(这是真的!)语音科学家和工程师已经取得了巨大的进步 - 这么多,所以有时它可能有点压倒性,特别是如果你刚开始了解这个领域。

但别担心!Rev在这里提供帮助。毕竟,语音到文字是我们整体的。因此,在本文中,我们将看一下ASR的四个主要功能,以帮助您更好地了解这项令人兴奋的技术。让我们潜入!

1.精度

准确性是指ASR软件将口语转化为文本的精确程度。在评估ASR服务的准确性时,我们建议进行计算字错误率(WER)要测试软件的表现如何。

可以通过添加替换(替换单词),插入(添加),删除(省略单词)来计算WER,除以所说的总词总数。

想想它就像高尔夫得分 - 你的行为越低,你的ASR服务越准确。但如果服务具有高WER,这意味着最终的机器生成的输出将具有更多的错误。

事实上,Rev的基准测试测试证明我们的ASR服务具有最低的竞争对手(14.22%)。

Rev Beats Google Microsoft Amazon

Rev的低WER是由于几个因素。首先,我们的培训数据的卷和质量。我们培训我们的模型,我们的客户在多个行业中使用我们的客户使用我们长期的音频文件,具有多个扬声器和复杂的行业特定的术语。其次,我们使用AI为我们的Revver社区构建工具,以帮助他们在工作中更有效。我们的自由职业者与火车一起工作,rev.ai.,他们提供地面真理转录物对于我们的演讲识别团队。反过来,我们的Rev.ai引擎产生了一个粗略的草案,即所有Rev转录员开始他们的工作。这种人和AI的组合在一起使我们能够更准确地训练我们的ASR发动机。

2.周转时间

ASR服务流程如何快速?语音识别客户希望尽快接收他们的产量,因此我们的演讲科学家不断努力满足这些期望。如果您将语音识别API集成到您的产品中,您希望确保周转时间将是资产,而不是障碍。然而,平衡很重要 - 有时,如果你换取优先权,你牺牲了质量。此问题频繁提出ASR应用程序,如Live标题。许多提供商可以提供快速的现场标题,但这些字幕将以牺牲标点符号和可读性为代价。

Rev.ai的异步API可以在几分钟内通过一小时的音频或视频进行传输。另一方面,流API在涉及时的速度差异活条标题或转录物。

Rev.ai也可以为我们的异步和流式传输API生成每个单词时间戳。这为寻求拥抱ASR技术的开发人员和公司带来无数前景​​。例如,Descript的overdub解决方案允许您通过转录程序快速更正录制 - 只需添加或更改转录程序中的单词,并且overdub将添加该单词或校正到音频轨道。这需要每个单词的时间戳,以便该技术将知道在哪里看起来并制作编辑。

如果您有大量的转录,您需要快速需要,Rev.ai让您覆盖!

3.多语言选项

我们居住在一个多语种社会中,许多我们周围的语言都重叠。通常,你会遇到双语或三语的人,并使用多种语言。像缩放和松弛这样的通信工具使其比以往任何时候都更容易,以便在全球中进行沟通,因此它只有意义语音识别技术应该随时发展。这就是为什么你应该考虑支持多种语言选项的ASR服务。

例如,rev.ai现已推出西班牙语、法语、德语和葡萄牙语。我们在一个模型上针对所有口音和方言进行了训练(例如,来自巴黎的法语和来自加拿大的法语之间的细微差别,等等),使用真实世界的数据,这样你就可以获得尽可能准确的结果。

Rev.ai可以帮助您认识到不同的发音和方言,并区分扬声器。您还可以使用它来转录您的域 - 特定对话 - 谢谢我们的自定义词汇特征。我们提供了每个文件提交6,000个自定义词(行业中最大的单词(行业最大的单词),这意味着您可以第一次获得所有名词和技术条款。

4.扬声器识别和标点符号

您是否尝试过包含多个扬声器的文件?如果他们互相交谈或经常中断何处怎么办?通常这些扬声器甚至可以听起来非常相似。我们知道斗争!

说话人日记可以很容易地识别不同的说话人,并把文本归给正确的人。这意味着你清楚地知道谁说了什么,什么时候说的——无论是两个人之间的讨论还是多人采访。

当您必须引用人员后,此功能非常有用 - REV的ASR可以支持最多八个发言者,并将为错误的人提供归因于归因于错误的人的尴尬。

您应该在ASR服务中寻找的另一个关键功能是标点符号和句子结构。虽然它看起来像一个只有ASR软件应该拥有的特征,但这并不一定是真的。在某些情况下,您只需收到没有大写,标点符号或甚至段落的文本。

这意味着重大努力在你最后改造成更可读的东西。Rev的ASR提供高度准确的标点符号和文本归一化(“四个哦,一个Kay”变为401K),以便您的成绩单更易于阅读。

您还可以访问服务不仅提供瞬时语音识别,而是在您的成绩单中自动化的服务。它立即遵守(逗号,冒号,问号,期间等),并利用更清晰可辨的转录。

在Rev.ai中找到所有这些功能和更多

您有它 - 质量ASR引擎的四个关键特征。

ASR技术逐步扰乱我们在教室,办公室和家庭中运作的方式。拥有更多功能和应用程序,ASR服务将继续开发到现在已依赖于其的最佳助手。

Rev是唯一提供端到端选项的语音到文本服务 - 从人机到全自动转录和高质量标题。

我们在嘈杂的音频上培训我们的模型,这使得我们的服务在房间或录音中更具弹性。我们为您提供API,以便在准确性,周转时间,编辑能力,期望的输出格式和价格方面确切地说。您可以获得实时演讲识别,从0.035美元开始,没有承诺。我们的企业定价从0.02美元/分钟开始。

实惠,快速转录。100%保证。