跳到内容

与Rev的语音科学家探讨语音识别的进化

牧师

2021年3月10日,

语音识别的进化

牧师;博客;牧师宣布;与Rev的语音科学家探讨语音识别的进化

Rev是建立在聪明的想法和工程突破的基础上。我们创造了世界最先进的语音文本人工智能提供准确的自动转录,并提高我们人类转录员的速度和准确性。由于我们有幸与开发这项技术的天才们一起工作,我们一直在寻找机会,以获得他们对我们最大的语音识别问题的专家观点。

团队通常都在努力改进演讲者diarization减少对性别和种族的偏见我们很高兴他们能抽出几分钟时间,就技术的发展、常见的误解以及行业的发展方向发表自己的看法。

自从你成为一名工程师以来,你如何看待语音识别领域的技术或人工智能的发展?

“20年来,语音识别世界进化无法处理只有简短的话语从有限的词汇(一次一个语言而要求科学家演讲专家饲料和调优系统)今天的状态,连续语音识别是无处不在和多语言系统在门口。换句话说,ASR从一个只有大型电信公司知道和使用的非常小的领域,变成了一个任何人都可以在他们的办公桌或电话上使用的公用事业!

有两件事发生了真正的变化:我们现在有了更多的计算能力来完成这项任务,以及用于培训的数据量也出现了爆炸式增长。这种结合让我们少一点依赖语音科学专家知识,更多地依赖机器学习领域为行业带来的通用工具。有趣的是,从CPU需求的角度来看,语音识别器的效率下降了一点:从精确度的角度来看,早期算法的性能略差,但从CPU和RAM使用的角度来看,它们更经济。我们现在看到业界和学术界正在努力解决这个问题,因为计算能力需求的增长速度快于可用的速度。未来是光明的!”——让-菲利普•Robichaud

现在对语音识别技术最大的误解是什么?

这个问题就像把声音转换成一连串的单词一样简单。还有许多其他重要的功能使语音识别技术变得可用。标点、格式、说话人日记、专有名词的适当大写和拼写(例如Lyft和lift)都是语音识别输出的组成部分,我们通常认为这是理所当然的,但对语音理解至关重要。提供这些功能也不是一件简单的事,每个功能都有自己的挑战和边缘情况。”- - - - - -奎因麦克纳马拉

“问题基本上已经解决了。在某些情况下,语音识别现在可以表现得非常好,比如当有人对手机发出指令时,语音片段就会显示出来。事实是,今天的语音识别技术仍然在人类能够准确转录的音频上苦苦挣扎。复杂的因素包括语言的重叠、发音的多样性以及语言的不断变化的性质。”——Nishchal班达里

语音识别技术的未来最让你兴奋的是什么?

“我对未来语音识别技术中的情感分析感到兴奋。当人们说话时,除了说了什么之外,还有很多关于如何说话的信息。语调、停顿、语速和选词都能传达情感和秘密的含义。有一个故事是这样的:一个911电话接线员知道一个女人打电话要一个大披萨,这是一个家庭暴力正在发生的秘密信息。”——维克多狂吠

“我真的很高兴看到语音识别变得更容易被人们使用。目前,语音识别的运行需要大量的硬件,并且需要稳定的互联网连接,但边缘计算的发展使语音识别能够在更小的设备上运行。我们现在正在做的一件令人兴奋的事情是端到端语音识别。这将使我们能够迅速扩展到更多的非英语语言,因为培训新模式很容易。”——米歇尔·黄

“人类水平的ASR精确度将使各种邻近技术成为可能。我们已经在Alexa和Siri上看到了一些。在未来,我们将拥有高精度的ASR,它将无处不在。可穿戴设备可以让听力障碍的人看到他们周围的人在说什么。沉浸式虚拟现实,你可以与电脑控制的角色进行对话。医院和办公楼里的帮助站会告诉你需要去哪里以及如何到达那里。当然,还有与个人设备相连的有用语音助手。我们很高兴看到ASR现在支持的产品的初稿,并想象未来会是什么样子。”——约瑟夫Palakapilly

我们目前在朝着更少偏见和更公平的ASR模型的道路上处于什么位置?

“作为一个研究团体,我们还有很长的路要走,才能说ASR模型是公平的。ASR模型最终会受到用于训练它们的数据的影响而产生偏差;总的来说,这些模型更善于识别年轻一代、女性和“典型”语言。话虽如此,我们仍在努力解决这些问题,如提高对“非典型”语音的识别,但所有模型仍有很长的路要走,以实现所有声音的功能均等。

我们共享一篇关于这个的博客文章在那之前和之后,我们已经取得了巨大的进步,以减少不同声音之间的差距,主要集中在重音讲话。我希望今年我们能够进一步缩小差距,不仅在重音讲话,而且在其他“非典型”讲话,如那些由语言障碍造成的。-米格尔·德尔

“我们的旅程还刚刚开始。第一步是认识到你有问题,第二步是努力解决它。

从2020年秋季开始,我就一直在努力练习口音。因此,我将主要关注我们在Rev所做的改进口音的事情,与我们过去的自己相比。

我们开始调查时(受到论文的启发自动语音识别中的种族差异)显示我们在重音发音方面的表现明显不如标准美语发音。作为一个团队,我们调查并尝试了不同的方法来改善我们模型中的偏差,从训练新的语言模型和声学模型,尽可能地平衡数据,到修改我们在词典中使用的发音。我们甚至开始写一份调查报告,回顾我们读过的所有关于ASR口音的研究报告。而且,尽管我们将测试一个在生产上有轻微改进的AM,我们没有看到在我们关注的不同口音(英国口音,印度口音,AAVE(非裔美国人方言英语))的准确性上有很大的提高。

由于缺乏进展,我们目前暂停努力,直到我们有更好的条件来接近它。这部分意味着等待我们的端到端迁移完成,我们将在我们使用的模型类型中有更多的灵活性。另一部分是寻找其他的数据来源并收集更多的数据,尽管我们在Rev有很多数据,但我们很少有标记的重音数据。口音很难学,我相信这将是一个漫长的旅程,但我们正在休息,并不意味着我们已经放弃了。”- - - - - -亚瑟j . Hinsvark

在雷夫,你最引以为傲的成就或举措是什么?

“首先,我为我们在这里建立的团队感到骄傲。我很幸运能和这样有才华、有上进心的人一起工作。他们工作出色、速度快,而且在解决难题方面有着令人钦佩的热情。

我也为我们作为一个团队所建立的ASR感到自豪。在加入雷夫之前,该公司没有语音识别系统。这个团队建立在我最初的探索之上,我们建立了我认为是世界上最好的英语语音识别模型。在语音识别领域工作了15年多,我理解构建一个好的通用模型有多么困难,我们的ASR模型的多功能性和高质量不断给我留下深刻印象。”- - - - - -米盖尔Jette