跳到内容

语音识别算法简介

语音识别算法简介

;博客;人工智能;语音识别算法简介

考虑所有烹饪鸡蛋的方法。使用大多数相同的成分,我们可以轻松地或过度准备它们。我们可以制作一个晚餐风格的煎蛋卷,a花哨的法国煎蛋卷,甚至日本卷煎蛋卷.也许它们在调味料或裹在平底锅上的脂肪类型上略有不同,但这些烹饪方法的真正区别在于科技nique。

随着新的和改进的语音识别算法的发展,我们可以在计算机科学中看到同样的主题。尽管许多技术专家正确地将最近的“ai爆炸“为了崛起。大数据同时进步计算能力,特别是图形处理单元(gpu)机器学习(ML),我们不能忽视世界各地的数据科学家、研究人员和学者辛勤工作的深远影响。是的,用炉子而不是篝火可以帮助我们烹饪鸡蛋,但这并不能说明煮熟的鸡蛋和蛋奶酥的区别。

这就是为什么我们要给你们快速介绍一下语音识别算法,包括过去的和现在的。我们已经摆脱了充斥着网络上许多类似文章的晦涩难懂的术语和晦涩难懂的数学。这篇介绍是为你写的,你是一个好奇的读者,没有计算机科学博士学位。

在我们开始之前,让我们先回到烹饪类比来简化我们的核心概念:算法。就像菜谱一样,算法只不过是一组有序的步骤。先做这个,再做那个。计算机算法通常依赖于一系列复杂的条件——如果煎饼的面糊太厚,就加更多的牛奶;否则再加些面粉。你懂的。

旧方法

自动语音识别(ASR)就是其中之一最古老的人工智能应用因为它显然很有用。与使用鼠标、键盘或触屏相比,使用语音进行电脑输入要容易得多,也更直观。虽然我们不能解释我们试图让计算机成为更好的倾听者的每一种方法,但我们将给你一个概述,直到最近主宰ASR的两种主要算法。

请记住,这些语音识别引擎是弗兰肯斯坦式的创造物,需要多个模型将语音转换为文本。一个声学模型消化声波并把它们翻译成音素,语言模型的基本构建块,而语言模型将它们拼凑在一起形成单词,发音模型通过试图解释从地理到年龄的所有内容导致的语音中的巨大变化来粘合它们。这种多管制方法的结果是一种与脆弱一样脆弱的系统。我们确定您在客户服务热线上处理了这一混乱。

这些系统主要依赖于两种类型的算法。首先,语法模型使用上一个n单词作为上下文,试图找出给定的单词。因此,例如,如果它看起来前两个单词,我们将其称为Bi-Gram系统,n = 2。虽然更高的值n由于计算机有更多的背景,因此可以更高的准确性来看,这根本不实际使用大量n因为计算开销太大。要么是我们需要一个功能强大的计算机,成本太高,要么是系统变得迟钝到不可用的地步。

另一个算法是隐藏的马尔可夫模型(嗯),基本上是在相反的方向。hmm不回顾过去,而是向前看。HMM算法使用概率和统计数据来猜测接下来会发生什么。“隐藏”部分意味着我们可以包含目标词不太明显的信息,比如词性标签(动词、名词等)。如果您曾经使用过自动完成功能,那么您就已经看到了HMM的实际应用。

的新方法

当今最先进的语音识别算法利用深度学习来创建一个,端到端模型的更准确更快,更容易地部署在智能手机等较小机器上物联网(IOT)智能扬声器等设备。我们使用的主要算法是人工神经网络,许多层叠(因此深)架构,这些架构松散地建模了我们大脑的工作。

Larry Suldesty在麻省理工学院让我们很好地概述了魔术是如何发生的:“To each of its incoming connections, a node will assign a number known as a ‘weight.’ When the network is active, the node receives a different data item—a different number—over each of its connections and multiplies it by the associated weight. It then adds the resulting products together, yielding a single number. If that number is below a threshold value, the node passes no data to the next layer. If the number exceeds the threshold value, the node ‘fires,’ which in today’s neural nets generally means sending the number—the sum of the weighted inputs—along all its outgoing connections.”

虽然大多数神经网络是“前馈”的,这意味着节点只将输出发送给链中较低的节点,但我们用于语音处理的特定算法的工作方式略有不同。被称为经常性神经网络(RNN),这些算法非常适合顺序数据,如语音,因为它们能够“记住”之前的内容,并使用他们以前的输出作为下一步移动的输入。由于单词通常出现在句子的上下文中,因此知道以前和回收信息进入下一个预测的信息,以便迈向准确的语音识别。

现在,我们需要提及的最后一个算法,以便您完全概述语音识别算法。这个解决了训练语音识别模型的一个非常具体的问题。请记住,ML模型从数据中学习;例如,在我们将其标记为“CAT”或“狗”之后,图像分类器可以在饲料中讲述猫和狗之间的区别。对于语音识别,这增加了在音频和相应的小时数的时间地面真理转录物是由人类转录员写的。

但是机器如何知道文字记录中的单词对应于音频中的声音呢?我们说话的速度根本就不是恒定不变的,这一事实使这个问题变得更加复杂。也许我们会为了效果而放慢速度,或者当我们意识到分配的演讲时间快要结束时加快速度。不管怎样,我们说同一个单词的速度会有很大的不同。在技术术语中,我们称之为对齐问题。

要解决这个难题,我们雇用了连接员时间分类(CTC)。该算法使用概率方法与训练数据(音频)对齐标签(转录物)。究竟这种作品超出了本文的范围,但足以说这是用于培训神经网络以执行语音识别任务的关键成分。

结论

当我们把这些都加起来,循环神经网络和CTC使语音识别技术取得了巨大的突破。我们的系统能够处理庞大的词汇量,难以置信的方言和发音差异,甚至实时操作多亏了这些算法。

事实上,这些进步并不是单一因素造成的。是的,我们所描述的软件发挥着巨大的作用,但它所运行的硬件和它所学习的数据都是等式的同等部分。这些因素具有共生关系;他们一起成长和进步。这是一个良性的反馈循环。

但是,这也意味着入门可能会比以往任何时候都更加困难。在大量数据之间,复杂的算法和云中的超级计算机之间,业内建立的球员对任何试图赶上的人都有一个巨大的头部。

所以我们决定提供我们的文本到语音API, Rev.ai,给开发者社区。您不必构建一个完整的ASR引擎来构建一个包含最先进的语音集成的定制应用程序。今天开始。

便宜、快速转录。100%的保证。