跳到内容

自动语音识别转录模型的解释

牧师

2021年6月14日

语音识别模型指南

牧师;博客;人工智能;自动语音识别转录模型的解释

自动语音识别,即使用计算机转录人类语音,一直是技术领域的一个经典问题。传统上,它属于信号处理领域,但如今,最先进的方法是利用机器学习来实现惊人的结果。

早在1952年,著名的AT&T贝尔实验室就发布了一个名为“Audrey”的系统,它能够识别由单个声音发出的数字。在80年代后期,隐马尔可夫模型使得能够识别数千个口语单词的系统得以发展。然而,其准确性仍有待提高。

然而,在过去5年左右的时间里,深度学习革命将语音识别带入了一个新的黄金时代,使语音转录比以往任何时候都更加快速和准确。

目前的语音到文本模型严重依赖于递归神经网络以及其他一些技巧。rnn是有用的,因为它们被设计用来处理序列,而人类的语言涉及单词的表达序列。RNN体系结构允许该模型关注序列中的每个单词,并根据之前说过的话来预测接下来可能会说什么。再加上原始声波波形和它们所建议的单词,使得模型能够准确地转录语音。

声学模型

如前所述,任何ASR系统的关键组成部分之一是声学模型。该模型以人类语言的原始音频波形作为输入,并在每个时间步提供预测。波形通常被分割成25毫秒左右的帧,然后模型给出在每帧中发声的音素的概率预测。音素是发音的原子单位。它们提供了一种识别与人类语言相关的不同声音的方法。

多年来,声学建模步骤使用了许多不同类型的模型。这些模型包括隐马尔可夫模型、最大熵模型、条件随机场和神经网络。

声学建模之所以如此困难,部分原因是任何单个单词的发音方式都存在巨大差异。使用的确切声音和波形的确切特征取决于许多变量,如说话人的年龄、性别、口音、情绪语调、背景噪音等等。

因此,虽然一个未经训练的声学模型可能能够在一个非常清晰的音轨中检测清楚发音的单词,但它可能在更具有挑战性的环境中失败。这就是为什么对声学模型来说,访问一个巨大的(音频文件,文本)训练对库是如此重要。这也是雷夫的自动语音识别技术出类拔萃的原因之一。它可以获得5万名母语为英语的转录员多年工作的培训数据和相应的音频文件。

声学模型也因语言而异。例如,用于英语的声学模型就不能用于德语。然而,如果这两种语言在声音上有一些相似之处,就像这两种语言一样,那么工程师可以使用一种叫做转移学习将原始模型转化为新的语言。

这个过程包括从原始模型中提取预先训练的权重微调它们在目标语言的新数据集上。迁移学习是一个相对较新的思想,在计算机视觉和自然语言处理中得到了广泛的应用,现在已经进入了语音识别领域。

语言模型

自动语音识别系统的第二部分,语言模型,起源于自然语言处理领域。语言建模的核心目标是,给定一个单词序列,预测序列中的下一个单词。通常情况下,语言建模是在单词层面完成的,但它也可以在字符层面完成,这在某些情况下非常有用,例如对于更基于字符的语言(如中文、日文等)。

rnn是语言建模的首选工具,特别是像lstm、GRUs和transformer这样的工具。虽然ASR系统在技术上可以在不访问语言模型的情况下成功运行,但这样做高度限制了它的准确性。这是因为声学模型经常会混淆两个或两个以上发音相似的单词。

例如,如果它识别出说话者刚刚说了“I walked around the ___”,它识别出下一个单词应该是“clock”或“block”,但它不能决定是哪个,那么声学模型就可以根据语言模型做出最终决定。的语言模型可以确定的是,在这种情况下,“阻塞”这个词更有意义。然而,如果这个句子是“I worked around the ___”,那么“clock”将是自然的选择。因此,当声学模型对其决策没有信心时,语言模型在梳理这些细微差别方面提供了宝贵的专业知识。

语音识别模型的类型

联结主义时间分类

深度语音识别模型是一种比较“经典”的类型联结主义时间分类.这种模型类型的设计是为了解决与训练语音识别模型相关的一个关键问题,即以某种方式将音频剪辑与文本文本记录对齐。更正式地说,假设您有一个输入序列X = [x1,…,xn]和一组标签Y = [y1,…,ym]。

你可以看到,这两个变量X和Y是长度,由诸如采样率(X)和单词的数量在演讲(Y)。对于任何一双X和Y, CTC给一个方法来计算条件概率p (Y | X),然后推断出最优解以Y * = argmax_Y p (Y | X)。

CTC方法的细节比较复杂,但总体思路很简单。该算法是无对齐的,这意味着它不需要音频和文本之间的对齐。为了计算总体概率P(Y|X),它首先计算时间步长t时X和Y给定对齐的时间步长概率P(a_t |X)。它通常使用RNN体系结构来计算这些概率。

然后金额/(边缘化)这些时间步的产品排列产生一个总体概率P (Y | X)。而这个过程一般需要占用大量时间,因为所有可能的排列的空间是如此庞大,在实践中是可行的由于使用一个聪明的所有比对动态编程算法。

听着,参加,法术

谷歌Brain和卡内基梅隆大学最近成功的一个模型是听着,参加,法术模型。该模型采用递归神经网络编码器作为声学模型,基于注意力的递归解码器作为字符级语言模型。

这基本上是一个序列到序列模型,因为它将音频序列转换为文本字符序列。递归解码器是一个具有金字塔结构的双向LSTM,也就是说,解码器是堆叠的,这样就降低了后续层的时间分辨率。

卷积的架构

虽然递归层非常流行,卷积神经网络在语音识别模型中也有自己的位置。在一个2016年的论文来自麻省理工学院、卡内基梅隆大学和谷歌Brain的作者们使用了一种混合的方法,它结合了卷积和递归方法。卷积技术的优势在于它们使用了权值共享(共享权值过滤器)和池操作,这不仅提高了网络的鲁棒性,而且大大减少了需要训练的参数数量。

在ASR的背景下,卷积模型可以捕获句子中的局部结构,从而使它们生成更好、更准确的预测。

如何比较Rev的模型

Rev ASR系统最好的部分是,因为它接受了数万小时的音频和文本的训练,这些音频和文本来自5万多名会说英语的转录员,这个模型在真实世界的数据上非常出色,优于系统由谷歌、亚马逊和微软等公司设计。问题是,研究论文中用于评估ASR系统的许多数据集并不能很好地转化为现实世界的应用。

Rev Beats谷歌微软亚马逊

为了解决这个问题,雷夫创造了一个播客的挑战它根据最流行的用例之一——创建播客片段的文本——来评估语音识别模型。然后,我们测试并比较了我们的ASR引擎与其他公司的ASR引擎,使用了包含27.5小时播客音频的30集测试套件包含在原始训练集中。我们还包括了不同信噪比的不同片段,以测试模型在应用于不同声学质量的音频时的有效性。

最后,雷夫用了一个自定义工具用于字错误率(WER)的计算,并比较不同系统的错误率。雷夫成为了明显的赢家,他在播客中展示了60%的最低错误率。请随意下载并使用此工具验证结果或根据不同的语音识别系统计算Rev的WER值。

便宜、快速转录。100%的保证。