什么是语音识别中的语言模型?

>博客>资源>其他资源>A.I.& 语音识别>什么是语音识别中的语言模型?

无论是由粘土还是代码制作,模型都是表示。模型帮助我们通过剥离不必要或间接的方式来了解世界,使我们能够在建模的主题中更加密切地看。在我们的案例中,我们使用计算机 - 因此数学来构建一个长期以来一直认为对数学家的刚性范围的主题的模型。

语言eBBS和流动;它的规则通常看起来比授权更高,而且我们每个人都带着一种独特的说话方式,在我们历史上旅行时,我们在我们内心的地方演变而来。

所有这些都可以说是教授计算机识别和使用语言是真的很难.我们采取语言处理理所当然,因为它对我们来说这么自然,但创造了一个统计语言模型通过分配通过单词序列的概率分布需要更多的努力。

但我们在编程中没有构建模型和其他应用程序语言还是如果我们可以告诉计算机在Python,JavaScript或C ++中可以做些什么,为什么我们不能轻松地用英语,西班牙语或日语输入输入序列?

语言模型

杰森·布朗利博士,来自机器学习掌握通过区分“可以完全指定”和天然语言的正式语言来澄清这个问题,“无法设计”。他们出现,因此没有正式规范。“他称之为“移动目标”,涉及“可以以介绍各种含糊不清的方式使用的广泛术语”。

数学家会认出一个同构,一对一的一个映射到另一个组,在正式语言和计算机系列之间,计算机依赖于他们的核心。缺乏这种直接对应,我们与自然语言的最佳赌注是在面对不确定的情况下做我们经常做的事情:扮演赔率.通过通过应用统计分析计算语言学和技术喜欢机器学习(ml)算法,我们可以使我们的计算机能够至少做好猜测。

我们的痴迷是让这些猜测更好,直到他们和我一样好。

还要记住,语言模型只是总共的一部分自动语音识别(ASR)发动机。语言模型依赖声学模型将模拟语音波转换为数字和离散音素构成单词的基本单元。其他关键因素还包括词汇,它通过控制我们识别的声音和我们预测的单词,将这两个模型结合在一起,还有发音模型,它处理口音、方言、年龄、性别和其他许多使我们的声音独特的因素之间的差异。

语言模型的生命故事

现在让我们仔细看看典型语言模型的生命周期。本节将为您提供我们创建,使用和改进这些模型的一般性概述直播语音识别智能设备的语音用户界面

首先,我们需要我们的原材料:数据和代码。我们数据集的录音录制构成了一个语料库,我们也需要真实记录这些记录作为基线,我们可以比较我们的结果。数据科学家开始使用各种算法编写代码,我们将在不同类型的语言模型上的下一节中描述。此ML代码通常是写入的Python通过利用框架纹orflow.Pytorch.

在这个阶段,开发人员还可以使用其他一些技术来加速他们的时间表或实现更好的结果。例如,转移学习让我们在新问题上重复使用佩带的模型。所以,尽管语言如英语和西班牙语不相同,但我们仍然可以利用英语语言模型来踢西班牙语。另一种类型借口包括在一个方向上初始化某个值而不是从完全随机的开头开始。

什么是语音识别?

现在是时候训练我们的模型了。虽然特定技术将根据我们的选择算法而变化 - 例如,无论是我们使用监督或无监督的学习- 原则是一样的。我们给它输入音频,它会生成文本,我们检查该文本是否对地面真实的成绩单。如果它是对的,那么将更有可能猜测未来同样的词;如果没有,那么它将不太可能这样做。我们重复这个学习周期数十万,数百万,甚至数十亿次高动力云计算机

然后,我们使用基准来评估我们的模型性能单词错误率(WER)并决定如何继续下一次迭代。我们将调整和调整代码,更改参数,源新数据,并再次运行。在Rev这样的公司,专门从事ASR和语言模型,这种迭代过程永远不会结束。

尽管如此,一旦我们实现了合适的性能水平,我们的模型就准备好了大型时间:部署.这可能意味着将其放在用户可以访问的服务器上计算机生成的转录物,在智能手机或智能扬声器上运行它,以改善语音助理的聆听技巧,或通过A in插入它语音到文本API对于任意数量的自定义应用程序。

现在我们的模型已启动并运行,我们可以使用它推理,用于将输入转换为输出的技术术语。当语言模型接收称位音素作为输入序列时,它将其学习概率使用它来“推断”正确的单词。大多数ML模型在运营寿命期间将继续学习和改进,使他们能够学习新词,并在为个人用户提供更擅长。

语言模型的类型

有两种主要类型的语言模型。较旧的品种使用传统的统计技术隐藏的马尔可夫模型(HMMS)和n克将概率分布分配给Word序列。这些模型严重依赖上下文,使用他们之前的单词的短期记忆来告知他们如何解析下一个。例如,BIGRAM模型使用前两个单词进行推理,而TRIGRAM使用三个。因此,使用n-gram使用N.言语来提出预测。

这些模型确实有一些主要缺点。虽然更高的值N.将为我们提供更好的结果,它也会导致更高的计算机开销和RAM使用情况。这使得它们难以在互联网上发现的资源光器件(IOT)。此外,这意味着它们有一个非常困难的时间绘制句子,段落或部分的开始。它们也完全依赖于培训语料库,这意味着它们无法推断出不在语料库中的新词。最后,它们非常依赖于构成ASR发动机的其他模型的性能。

另一方面,深度学习语言模型使用人工神经网络创建许多层次的系统,大多数数据科学家考虑最新的现有技术。深入学习算法更灵活,培训更快,并且不需要尽可能多的部署资源。

一种特殊的技术变压器网络,在语言建模中尤其突出,因为它能够处理类似于注意.虽然n-gram模型将始终注意上一个n个单词,但主题的神经网络将给重要的单词带来更多的重量。就像你现在可能正在掠过这篇文章即可挑选出重要的比特,这些系统沿着类似的线路运作。

深入学习方法的另一个主要好处是终端(E2E)建模。在这个架构中,我们去掉了各种模型——声学模型、词汇模型、语言模型等等——并将它们全部放到一个模型中。与那些支离破碎的模式相比,这些模式更有效,更不脆弱。

关于语言模型的最终思想

特别是对于深度学习语言模型,数据是一切.当然,质量是高标准的重要性,但是通常从一个很好的情况下建立了一个很好的模型是我们用来训练它的数据的纯粹量。大多数ASR开发人员都依赖于标准的核心libRispeech.WSJ语料库,但这些只能让你到目前为止。

这就是为什么重新倾销像微软和亚马逊这样的科技巨头在WER这样的ASR基准测试任务中。我们超过50,000人的转录团队致力于Rev的优质人类转录和字幕服务。从数据科学的角度来看,这是很多高质量的事实记录。我们不仅有一个世界级的语音工程师和计算机科学家团队,而且他们可以使用市场上最好的原料。

Rev Beats Google Microsoft Amazon

我们生产的ASR解决方案只是开始。从那里,开发人员可以使用它们自然语言处理(NLP),需要真正语言理解的任务。基本上,虽然ASR将音频转换为文本,NLP摘要要呈现含义。要在行动中看到这一点,您可以查看这个削弱这是由AI Bots或的完全产生的这个网站这让您可以使用神经网络来自动完成句子并预测下一个单词。
您是否需要为您的业务的电话会议或为自定义移动应用程序提供更好的语音集成来表明,您将需要ASR。不要从头开始。访问我们服务页面要了解更多信息如何利用我们最友好的语音识别解决方案。