跳到内容

什么是语音识别深度学习?

奥斯汀金丝雀

5月24日,2021年

深入学习的演讲识别

牧师;博客;人工智能;什么是语音识别深度学习?

一个常见的智慧说得很棒艺术是自然的一面镜子我们在技术进步和艺术作品中都能清楚地看到这一真理。从昆虫机器人的启发突出结构中的斐波那契数列在美国,许多伟大的发明都来自于对自然的深入研究,并将我们所学到的知识应用到我们的创造中。

同样的原则也大大提出了最先进的技术人工智能(人工智能)在过去十年。是的,更容易接近更高的动力计算更多来自顶级企业的投资已经走了很长的方式来解锁AI的潜力,但我们最实质的突破仍然是神经科学家的工作。当然,我们是指的人工神经网络这是一系列机器学习(ML)算法,灵感来自人类大脑的多层架构。

DeepMind的Alphago在2016年击败了世界上最好的去球员神经网络开始受到国际社会的关注;不久之后,我们现在所说的技术深度学习适用于所有的东西吗面部识别自动语音识别(ASR)。

虽然这些机器学习算法的内部工作需要研究生水平的数据科学研究才能完全理解,但任何人都可以大致理解深度学习。现在让我们深入了解雷夫的研究团队如何应用深度学习来创建世界上最准确的ASR解决方案

ASR技术简史

要了解我们现在的位置,我们需要看看我们去过的地方。计算机科学家长期以来一直着迷于倾听和谈话的机器,部分原因是一个概念即主管电脑是真正智能机器的标志,部分原因是他们只是简单的有用。然而,直到最近,我们的尝试需要一个脆弱,笨重,难以扩大的弗兰肯斯坦方法。

在深度学习用于语音识别和相关应用之前,语音科学家构建了个体模型处理不同部分的语音识别过程。一个声学模型将模拟声波转换成计算机可以处理的数字数据,一个语言模型从数据中提取单词,一个发音模型处理不同口音和方言的说话者之间的变化。

这种方法有一些问题。任何模型中的任何错误都会丢弃整个事情,通常会让我们搜索杂草以找到它的来源。由于语言规则通常被硬编码到算法中,因此它们是不灵活的。当我们将语言的不断变化的性质与巨大的语言结合起来时,我们留下了一个有时足够好的系统,但经常让用户感到沮丧和失望。

语音识别深度学习使我们能够通过让我们培训单身来克服这些挑战,端到端(E2E)封装整个处理管道的模型。“端到端ASR架构的吸引力,”NVIDIA的开发者文档解释道,它可以“简单地接收音频输入并给出文本输出,在其中架构的所有组件都朝着同一个目标进行了训练……一个更容易处理的管道!”

除了解决了困扰以往ASR迭代的许多问题外,深度学习语音识别还带来了其他优势。他们训练起来更快。它们不需要那么多的资源来运行,这为部署提供了新的可能性。他们也更善于识别方言、口音和多种语言。

语音识别的最佳算法之一监督式学习,它根据标记的数据训练神经网络。例如,如果我们要训练一个模型来区分猫和狗,我们会向它展示被人类标记为猫或狗的图片。对于ASR来说,这意味着对模型进行音频和相应的训练真实记录

ML模型的好坏取决于我们提供给它的数据。“我们知道,大多数具有深度神经网络拓扑结构的声学建模方法都需要大量数据,而且在有监督的大型数据集(手动转录描述)下更有效。”电气与电子工程师协会(IEEE)的一组研究人员写道.虽然大多数ASR开发人员对这些数据集的访问有限,但我们对其的丰富提供了Rev的ASR技术竞争优势。自从我们长期以来人类转录服务,我们有难以置信的访问极度良好的数据池。

质量数据这就完全不同了。

结论:意义与应用

当我们将深度学习和语音识别结合在一起时,我们开始看到一个充满可能性的新世界开始出现。最令人兴奋的暗示之一是,这些进步将为你身边的设备带来更好的ASR。我们可以在智能手机等小型设备上运行深度学习ASR,而不必在云端的强大计算机上运行多个模型物联网(IoT)设备。

反过来,这允许开发人员创建更复杂的语音UI,这比触摸屏和键盘等选项更容易,更快,更易于访问。从使用语音来导航菜单在移动应用程序中与语音助手进行说话以控制灯光和恒温器等智能家居设备,我们才开始看到许多创新方法使用REV的演讲到文本API

未来,深度学习的应用将使ASR更容易适应不同说话人的差异,处理不同的地区方言,甚至扩展到更多的外语。这将证明对于像这样的用例是无价的呼叫中心优化,翻译应用程序,以及流ASR用于实时字幕电视节目、视频通话等。

ASR可以把你的应用带到一个新的水平,但是掌握深度学习来创建语音识别算法并获取足够的数据来让它工作是一项巨大的投资。我们已经做了投资,你可以利用它rev.ai..如果您知道如何编码,那么您可以使用我们的语音到文本API创建一个定制的语音应用程序。

便宜、快速转录。100%的保证。