什么是语音识别的词典?

>博客>资源>其他资源>A.I.& 语音识别>什么是语音识别的词典?

任何关键部分自动语音识别系统是个lexicon.。词典可以棘手定义,因为它有时会根据上下文而表示不同的东西。在其最基本的形式中,一个词典只是一组与其发音的单词崩溃音素,即单词发音单位。

在很多方面,它就像发音的字典。lexicon的另一种方式是指代表有限状态传感器由词典制备产生的结果,有时被称为“L.FST”。有限状态换能器是一个有限的状态自动机,可以将两组符号映射在一起。在词典的情况下,这种换能器将单词符号映射到它们各自的发音。

定义FST.

Lexicon可以被视为有限状态换能器以及一组转换概率,该转换概率指定了单词音素状态之间转换的概率。仿制的Classic Setup是为每个音素分配一个状态。然后,通过音素可能性指定状态的转换的概率,通常从一些大语料库计算。

然而,在许多实际案例中,我们实际上渴望更粒度的音素表示。这是因为手机可以长度差异,持续到一秒钟,也是声能量。即使在扬声器之间,固定电话的长度也可以随高达40-130次而变化。更重要的是,某些声音等声音和双发等声音波形具有很大的变化。

因此,在整个手机上平均能量没有意义,因为这导致信息丢失。因此,我们将每次电话分配三个州 - 一个开始,中间和最终状态。这允许模型捕获与电话内不同的声学能量相关的信息。此外,可以添加“空白”电话状态以捕获语音序列之间的静音。

拼写和发音的变化

Lexicon是这种重要的语音识别管道的重要作用的原因是因为它给出了辨别不同发音和单词拼写之间的方法。拼写的许多单词组件在不同的上下文中具有不同的发音。

例如,考虑通过,面团,咳嗽,粗糙,树枝,彻底,足够等。从拼写中知道不可知。在这种情况下,将在词汇/音素状态之间编码的lexicon和状态转换概率中上下文来设置正确的发音。

在其他情况下,即使在这个词的拼写相同的情况下,发音也不能容易地推断出来。取决于您所在国家/地区的哪个部分,可以将“神经”一词的案例称为“神经网络”。对于像这样的棘手的边缘案例,质量词典将编码发音变量,并给出一些概率到每个的可能性。

最后,甚至可以归因于同一扬声器中的发音中发音的变化,这可能归因于他们的说话有多快或甚至只是简单的舌头滑动。这一个例子可能是缩短一个词,例如在快速语音期间没有t的没有t的“重音”发音(AE K S EH N IH D)。另一个例子可能是一种单词的精选,例如“新奥尔良”被称为“n'orleans”或“nawlins”。因此,词典对于代表其他发音现象有助于处理野外的真实讲话。

Lexicon如何使用

Lexicon是一个关键的一部分声学模型。通过占据Lexicon发音HMM并向其添加到从RAW音频文件计算的剖腹产传感器来定义整个声学模型。总而言之,声学模型用于测量p(o | w) , 这可能性给出一个单词的音频观察。

然后,与a结合时语言模型,估计之前的概率p(w) ,源语言中的单词。当这两个模型结合使用时,我们可以执行一个解码使用BAUM-WELCH和Viterbi算法来计算后验概率的程序p(w | o) 这给了我们在我们观察到的原始音频文件的情况下任何单词序列的概率。通过采取最大化这种概率的序列,我们有效地执行了语音识别。

词典资源

那么我们如何为每个单词获得其组成手机?好吧,如果你是一个语言学家,你可以创作这样一个人自己。但是,对于我们绝大多数我们来说,最好下载一个开源词汇。其中最受欢迎的这样的资源之一是CMU Proncing字典,通常缩写为cmudict。此资源包含四个文件:如定义的一组39电话(音素)符号arpabet.,一个包含这些符号的分配给他们的类型的文件,例如“元音”,“fricative”,“停止”,或“抽吸”,一个文件给出了各种标点符号的发音,然后核心字典给出了标准的发音英语单词,通过电话分解。这是从该字典中取出的示例条目,以便让您了解数据的样子:

鲍鱼AE2 B AH0 L OW1 N IY0

如您所见,它将“鲍鱼”一词分解为其成分声音。这样的文件将被馈送到ASR中以创建Lexicon HMM,如第一个部分中所述。

Rev AI语音识别准确性

由于Rev的60,000多个人类专业转录员转录的原始数据量,Rev具有最准确的语音识别系统和语音到文本API。录始终如一地击败谷歌,亚马逊和微软的准确性测试

Rev Beats Google Microsoft Amazon