跳到内容

什么是语音识别?

什么是语音识别?

牧师;博客;人工智能;什么是语音识别?

语音识别,也被称为“语音到文本”,当机器或计算机程序识别和处理一个人的口语,并把它们转换成文本显示在屏幕或监视器上。这种技术的早期阶段利用了有限的词汇集,包括常见的短语和单词。

由于语音识别周围的软件和技术已经发展,现在它能够更准确地解释自然语音以及识别口音和不同语言之间的差异。虽然语音识别已经走了很长时间,但仍有很多改进的空间。

术语语音识别和语音识别通常指的是同一件事。然而,这两者是不同的。语音识别是用来识别某人说过的话。声音识别是一种生物识别技术,用于识别特定的人的声音。

语音识别可以用于执行语音搜索,而语音识别可以由医生使用语音识别来指示医学转录报告。如果您必须拨打您的互联网服务提供商以获得帮助,则可能会记住必须通过一系列语音激活的提示。呼叫中心使用语音识别技术将您路由到合适部门。

为什么要使用语音识别?

所以为什么有人需要演讲识别吗?今天,实际上每个人都拥有并操作智能设备,如手机和数字平板电脑。语音识别技术已成为许多功能中硬编码到这些智能设备的软件的功能之一,允许他们理解连续语音并将其转换为不同的动作。

例如,用户可以口头告诉他们的移动设备“呼叫妈妈”,设备会承认这个命令并实时执行所需的操作。另一个用例是使用谷歌或Siri等数字助手来启动语音搜索。

人们使用语音识别的其他一些方式是免提播放音乐、打印文件、记录音频、获取天气状况的更新、安排旅行、查找烹饪食谱等等。

它是如何工作的?

在这一点上,你可能会认为语音识别非常棒,但是如何它真的有用吗?电脑和其他设备都配备了内置的外部麦克风和其他传感器,这些传感器可以接收一个人可能说的话,这些组件将声音的声波转换成设备可以使用的数字信息。许多不同的计算机程序被用来解释语音。

语音识别软件解释一个人所说的声音,然后分析并采样以去除任何背景噪声。然后它将数字信息分成不同的频率。语音识别软件采用这些信息,并试图检查和比较基础与其他基础,以一个广泛的词,表达,和句子库。然后,软件会确定这个人说了什么,并提供文本输出或执行命令。

它也值得理解单词错误率或(回答).单词错误率是由错误率除以处理的总单词数得出的。更具体地说,计算这个比率的一个简单公式如下:替换+插入+删除除以总单词数。这种计算是由一种叫做“Levenshtein距离”的东西推导出来的,它涉及到测量两个物体之间的距离字符串.在这种情况下,字符串可以被认为是在转录中组成单词的字母序列。

在选择语音识别软件时,注意WER评分较低。WER得分越低,文本与音频的匹配程度就越高。例如,Rev的语音识别产品的WER为14%,准确率为86%打败了谷歌、亚马逊、微软和其他主要的语音转文本选项

Rev Beats谷歌亚马逊微软语音到文本准确性

随着语音识别在我们的生活中扮演越来越重要的角色,了解它是如何工作的很重要。如果您正在寻找自己的语音到文本服务,请考虑您所选择的服务的质量。Rev领先的语音转文本人工智能和它的自由职业社区提供快速和负担得起的语音转文本服务,准确率达99%。