跳到内容

什么是自动语音识别技术?ASR的终极指南

牧师

5月24日,2021年

什么是自动演讲 - 识别技术-ASR-Rev

牧师>博客>人工智能>什么是自动语音识别技术?ASR的终极指南

当我们看看计算机科学的历史时,我们会看到清晰的世代线,由它们的输入方法定义。信息如何从我们的大脑进入计算机?来自早期打卡电脑从我们熟悉的键盘,到我们口袋里最新的触摸屏,我们可以将计算的进步追溯至我们与数字互动的方式。和技术一样,我们的问题是“接下来会发生什么?”

答案:人类的声音。自动语音识别(ASR)是实现这一转变的技术。从本质上讲,ASR就是利用计算机将口语转化为书面语言。

这是一个巨大的一步,无论是如何创造它的机会,也是我们必须克服它的挑战。给你一个类比,考虑语言本身的演变。书面单词没有出现在口语出现几万年后,但是,当它开始的时候,它开始了一个新的文明时代。重点是,从说到写真的很难,但其后果同样重大。

即使没有进入科学版的未来,别担心,我们就会到达那里 - 在这里有一个井下的机会 - 现在,魔法商界人士,开发人员和其他人正在分手。ASR已经良好使用。

我们会告诉你怎么做。但首先,我们来看看基本原理。

揭秘自动语音识别

今天的ASR落在了域名机器学习(ML),它又是人工智能(AI)。后者广泛地指模拟思维的计算机,而前者是一种通过训练计算机自主学习来实现人工智能目标的特殊技术。基本上,我们没有尝试将语音输入翻译成文本输出的规则编码训练ML模型通过将大数据集输入算法,例如卷积神经网络它大致模仿了人类大脑的结构。模型变得越来越好推理例如,将输入转换为输出的过程,或者,在我们的例子中,将语音转换为文本。

另一个关键区别是自动语音识别和自动语音识别之间的差异自然语言处理(NLP)。ASR涉及将语音数据转换为文本数据,而NLP则试图“了解”语言以燃料其他操作。他们很容易混淆,因为它们经常出现在一起;例如,智能扬声器使用ASR将语音命令转换为可用的格式和NLP,以弄清楚我们要求它做的事情。因此,NLP更关注的意义比ASR。

最后,让我们深入了解一些特定的ASR术语和技术。大多数ASR都以a开头声学模型表示音频信号与基本构建块单词。就像数字温度计一样,将模拟温度读数转换为数字数据,声学模型将声波转换为计算机可以使用的位。从那里,语言和发音模型拍摄数据,适用计算语言学,并考虑每个声音按顺序在上下文中形成单词和句子。

然而,最新的研究正在放弃这种多算法方法,而倾向于使用一种叫做端到端(E2E)模型.米歇尔·黄是Rev的高级语言科学家之一,解释说,“我们现在正在做的一件令人兴奋的事情是端到端语音识别。这将使我们能够迅速扩展到更多的非英语语言,因为培训新模式很容易。”其他优点包括减少解码并与下游NLP进行联合优化。

另一个关键期限是扬声器日复一衰,这使ASR计算机能够确定哪个扬声器在哪个时候讲。这对使用案例不仅是生成从电话会议的函数等函数的关键案例,而且还避免了将两个扬声器的同时演讲结合成一个非义的标题。

一旦我们建立了我们的ASR,我们也需要一种评估它的方法。词错误率(WER)是金标准ASR基准测试因为它告诉我们我们的模型如何通过将输出与A比较来完成其作业地面真理成绩单由人类创造。这是公式:

单词错误率=(插入+删除+帧)/参考记录中的单词数

简单地说,它给了我们ASR搞错单词的百分比。因此,WER值越低,保真度越高。当我们看到不同的ASR提供商是如何相互关联的时候,我们将在稍后回到WER。

我们现在如何使用ASR

现在是时候提供了良好的东西:我们从各种行业中看到的辉煌的应用和创新用例。由于ASR是如此通常有用的技术,因此列出每个应用程序是不可能的。这些是我们的一些最爱。

生成封闭字幕是最明显的地方。它有两种形式:离线和生活。无论是用于电影,电视,视频游戏还是任何其他形式的媒体,离线ASR准确创建标题提前帮助理解和使媒体更容易为聋人。相比之下,住ASR让我们实时流媒体字幕,延迟以秒为单位。这使得它非常适合直播电视、演讲或视频通话。

ASR也很适合创建成绩单之后的事实。除了标准的讲座、播客等,我们看到的最具创新性的应用之一是公司创建Zoom电话和其他虚拟会议的文本。有几个关键的好处。首先,文本比音频更容易搜索,使我们能够轻松地引用重要时刻或引用。其次,阅读文字记录比阅读录音花费的时间要少得多。最后,如果有人错过了会议,文字记录更容易分享。

医疗社区是ASR Tech的另一个沉重的专家。根据A.沃顿客户分析白皮书“医生越来越依赖于AI辅助技术,将语音决定的临床笔记转换为机器可理解的电子病历,并结合对这种疾病区域的诊断图像的分析,作为癌症,神经病学和心脏病学,有关信息正在揭示做决定。”沿着类似的线条,Covid Pandemice加速了远程医疗的兴起,ASR对筛查至关重要进行远程病人

呼叫中心也在使用ASR来推动更好的客户结果。除了使用全自动聊天机器人的呼叫中心,还包括监控客户支持互动,分析初始联系人以更快地解决问题,以及改进员工培训。麦肯锡研究发现,“公司已经应用了先进的分析,将平均处理时间减少到40%,将自助储存率提高5%至20%,将员工成本降至500万美元,并启动服务转换率- 所有近50%的呼叫 - 全部均可提高客户满意度和员工参与。“

软件开发人员也很好地利用了ASR。例如,移动应用开发者可以利用Rev.ai的语音api集成ASR功能,而无需支付数据科学团队的开销或数小时的高性能云计算来训练新模型。反过来,它们的用户可以通过语音导航应用程序,享受更无缝、更直观的用户体验。

尽管ASR在所有应用类别中都扮演着重要角色,但它仍然是最重要的翻译软件.这项技术正在创造一个“普遍翻译”删除语言障碍,并使旅行和跨境通信更容易获得。

最后,我们有物联网(IOT) - 这是一个很大的。IOT包括越来越多地居住世界的所有物理“智能”设备。这些范围从恒温器和扬声器等智能家居设备到工业互联网(IIT)优化制造工艺和推动改进自动化的设备。声音很快成为用户与IOT互动的最佳方式。通过简单地说“打开灯”或“调温”,我们能够实时控制我们的环境,所有这些都不要看屏幕或按下一个按钮。

如果非要打个赌的话,我们会说ASR对物联网的大规模实施和采用至关重要。但在我们讨论ASR创造的巨大机遇之前,我们必须克服一些严峻的挑战才能实现这一目标。

ASR的未来:挑战与机遇

第一个按压挑战,即ASR和AI更普遍面孔是我nclusivity和被.技术必须同样为我们所有人提供服务,但研究表明服务中的偏见基于AI的金融服务这不太可能为少数民族提供贷款搜索引擎强化种族主义在语音识别软件中差异。

一份报告“我们的研究结果指出了非裔美国人在使用由语音识别技术驱动的日益广泛的工具时所面临的障碍。更普遍地说,我们的工作表明,有必要对新兴的机器学习系统进行审计,以确保它们具有广泛的包容性。”更具体地说,他们发现前五名的ASR系统“表现出了巨大的种族差异,黑人说话者的平均单词错误率(WER)为0.35,而白人说话者的平均单词错误率(WER)为0.19。”

请记住,ML模型从他们的训练数据集中学习,因此当从该数据中缺少黑色的声音时,ASR无法准确解析他们的演讲。除了带来更多样化的开发者进入技术领域,我们还必须使用更多样化的训练数据集,以代表不同的口音、方言和说话者。你可以阅读更多关于雷夫在这方面的倡议在这个博文

隐私是ASR广泛采用的另一个主要粘痕点。说穿,监视与民主不相容,作为技术人员,我们有责任以一种利益我们社会的方式创新。另外,这只是良好的业务。沃顿邮纸让案件:

“消费者在家里、车里、工作场所、商店或任何提供便利的环境中采用语音技术的常见情况,取决于消费者信任他们的数据隐私……我们注意到,未来,随着公司依赖于第一方数据关系,赢得消费者的信任将变得至关重要。我们预计,公司将通过带头建立信任并结合隐私设计(Pbd)来确保系统、流程和产品中的个人身份信息(PII)受到保护,从而获得竞争优势。”

特别关注ASR,一篇论文的题目是基于x矢量的说话人匿名化的设计选择解释说“语言的隐私保护方法分为四大类:删除,加密,分布式学习和匿名化。语音私人计划明确促进了发展匿名化这些方法旨在抑制语音中的个人识别信息,同时保留语言内容等其他属性。

最后,还有很多纯粹的技术挑战克服。“现实是,今天的语音识别系统仍然努力,人类能够准确转录的音频,”Nischal Bhandari说,(在这里插入工作,我无法在线找到他的标题)在Rev.“复杂因素包括重叠的言论,多样性语音,与不断变化的语言。“

如果我们能够克服这些挑战,ASR将提供令人难以置信的机会。其中许多将来自ASR在边缘,这意味着我们将在更靠近数据源的低功耗计算机上运行端到端模型,而不是在云中的高功率计算机上。有一些关键优势:降低延迟,更个性化 - ,因此准确的模型,而且更好的隐私保护,因为语音数据不必通过网络旅行。

比如,苹果的神经发动机这是一种定制芯片,可以让iphone在边缘处理特定的ML任务。在一个采访ARS Technica,苹果的人工智能主管John Giannandrea解释道:“我理解在数据中心更大的模型在某种程度上更准确的看法,但这实际上是错误的……模型最好是接近数据运行,而不是移动数据……这也是隐私保护。”当然,苹果并不是唯一一个在边缘上运行ML的公司;新的硬件,如NVIDIA的Jetson MicroControllers现在,开发者可以在任何地方运行Rev的ASR。

这金额是朝向的关键步骤环境计算在美国,计算机无处不在,我们甚至忘记了它们的存在。这一观点来自Mark Weiser 1991年的一篇开创性论文,21世纪的电脑在这本书的开头,他写道:“最深奥的技术是那些会消失的技术。他们把自己编织进日常生活的结构中,直到无法与之区分。”在过去的30年里,Weiser关于无处不在的计算机的想法一直是硅谷的指路明灯,现在我们比以往任何时候都更接近实现他的梦想。在实践中,这意味着使用ASR来用我们的声音控制环境物联网。

另一个即将出现的突破是改进情感计算,打破语音模式和其他通信的艺术,以检测情绪的暗流,并认为在单词下面跑。“当人们说话时,在所说的话之外,有什么样的信息,”解释了维克多狂吠, Rev(职称)。

这包括“语调、停顿、语速和选词,这些都能传达情感和秘密的含义。”他指着一个女人的例子拨打911“订披萨”真的,她是家庭暴力的受害者。由于她如何发言,操作员能够理解她的意义,而不是自己自己。随着我们在ASR技术方面取得更多进步,我们预计聊天禁止更多这些能力。

最后,我们必须指出,ASR将是任何人工智能系统的关键部分,最终能够通过图灵测试.艾伦·图灵,第一台电脑的发明者破解了纳粹的Enigma密码,创建了这个测试作为确定机器是否可以真正思考的方式。基本上,它涉及一个人持有两个对话,一个与另一个人和一台机器的对话。如果他们无法确定哪一个是机器,那么图灵总结它必须是思维机器。

虽然顶级AI研究人员在一个中提交他们的工作年度比赛,没有人尚未接近实际通过图灵测试。但是,如果我们跨越门槛,ASR将在对话中发挥重要作用。

结论

为了所有的复杂性,挑战和技术性,ASR真的只是一个简单的目标:帮助电脑听我们。我们将这种质量互相理解,但是,当我们停下来思考它时,我们就会实现这一能力真正的重要性。作为儿童,我们通过倾听我们的父母和教师来学习。我们通过聆听我们遇到的人来扩大我们的思想,我们通过互相倾听来保持我们的关系。

简单地说,让机器听听是一个很大的事。即使我们只考虑现在使用案例,也是忽略它将带来的巨大机会,这是致力的强大。与此同时,我们必须记住这一点拥有权利的同时也被赋予了重大的责任.作为技术专家,我们有责任维护用户的隐私,在没有偏见和偏见的情况下开发技术,并创造有利于我们所有人的系统。

在Rev,我们重视这些承诺,就像我们重视ASR技术的质量一样。正如雷夫在语音识别精度方面领先行业WER远低于谷歌、微软和亚马逊等科技巨头,我们还领导批判性思考这些技术如何应用​​于我们的日常生活。

你是一个寻找的开发人员吗?ASR语音到文本API快速,准确,易于集成?你是一个商人,讲师,或播客寻找转录服务?或者你只是需要标题为您的原始内容?Rev你已经覆盖了。联系我们今天来了解更多。