5个最好的开源语音识别引擎和api

牧师;博客;资源;其他资源;“语音api;5个最好的开源语音识别引擎和api

对于预算有限的公司来说,开源语音识别引擎是在产品中测试ASR技术的好方法。其中许多工具提供了非常精确的解决方案,并使您有机会了解ASR特性如何帮助增加您接触到的客户数量。

在本文中,我们将提供五种最好的免费语音识别服务,并详细介绍如何开始。

Mozilla DeepSpeech

DeepSpeech是由Mozilla创建的Github项目,Mozilla是著名的开源组织,它为你带来了Firefox网络浏览器。他们的模型是基于百度深度语音研究论文,并使用Tensorflow实现。一个好的方面是,他们提供了一个预先训练的英语模型,这意味着你可以使用它而不需要自己的数据来源。但是,如果您有自己的数据,您也可以训练自己的模型。或者,你甚至可以采用他们预先训练的模型,并使用迁移学习来根据你自己的数据对其进行微调。

使用代码本地解决方案而不是API的好处在于,您可以根据自己的规范对其进行调整,从而提供最终的自定义性。DeepSpeech还提供了许多不同编程语言的模型包装器,包括Python、Java、Javascript、C和. net框架。它也可以编译到树莓派设备上,如果你正在寻找目标平台的应用程序,这是伟大的。

不过DeepSpeech也有它的问题。由于一些裁员和组织优先级的变化,Mozilla是结束DeepSpeech的开发这可能意味着,当软件出现漏洞和需要解决的问题时,支持会大大减少。此外,DeepSpeech仅作为Git回购提供,这意味着它非常简单。为了将其集成到更大的应用程序中,公司的开发人员需要围绕其推理方法构建一个API,并生成用于处理与模型接口的各个方面的其他实用程序代码。

Wav2Letter + +

Wav2Letter + +语音引擎是最近在2018年12月由Facebook人工智能研究团队创建的。他们做广告作为第一个完全用c++编写的语音识别引擎有史以来最快的.这也是世界上第一个实现自动化的ASR系统只使用卷积层不是周期性的。循环层对几乎所有现代语音识别引擎都是通用的,因为它们对于语言建模和其他包含长期依赖的任务特别有用。仅使用卷积层可能是其引擎惊人速度的一个原因,因为用于训练rnn的反向传播时间方法计算非常密集。

作者还发布了一个更通用的机器学习库,称为手电筒Wav2Letter++是其中的一部分。它也是完全用c++编写的,能够在CPU和GPU上进行快速、高度优化的计算。在Wav2Letter++中,代码允许你要么训练自己的模型,要么使用他们预先训练的模型。它们还提供了匹配各种研究论文结果的方法,因此您可以混合和匹配组件,以符合您想要的结果和应用程序。

Wav2Letter++和DeepSpeech的缺点是一样的。当你得到一个非常快速和强大的模型时,这种能力伴随着很多复杂性。您将需要有深入的编码和基础架构知识,以便能够在您的系统上进行设置和工作。

卡尔迪

卡尔迪是一个用c++编写的对文本引擎的开源演讲,它比本文中的其他一些引擎稍老一些,也更成熟一些。这种成熟度既有优点也有缺点。一方面,Kaldi并不是真正专注于深度学习,所以你不会在这里看到很多这样的模型。他们确实有一些但深度学习并不是该项目的主要收入来源。相反,它更关注经典的语音识别模型,如HMMs, FSTs和高斯混合模型。

因此,您不太可能获得与使用深度学习方法相同的准确性。然而,Kaldi方法是非常轻量级、快速和便携的。这些代码已经存在很长时间了,所以您可以放心,它经过了非常彻底的测试,而且是可靠的。他们也有很好的支持,包括有用的论坛,邮件列表和Github问题跟踪,这些都是项目开发人员经常使用的。Kaldi也可以在一些替代设备上运行,比如Android。

打开Seq2Seq

打开Seq2Seq是英伟达创建的一个开源项目。它更普遍一点,因为它关注的是任何seq2seq模型的类型,包括用于机器翻译、语言建模和图像分类等任务的类型。然而,它也有一个健壮的模型子集专门用于语音识别。这个项目比Mozilla的DeepSpeech更与时俱进,因为它支持三种不同的语音识别模型:Jasper DR 10×5,百度的DeepSpeech h2和Facebook的Wave2Letter+。

其中最好的模型Jasper DR 10×5的贪婪单词错误率仅为3.61%。Open Seq2Seq包还提供了一些不错的功能,比如支持多gpu、分布式训练以及混合精度训练。注意,这些模型需要相当多的计算能力来训练。他们估计,使用12gb内存的GPU训练DeepSpeech2需要大约一天的时间。

Open Seq2Seq的一个缺点是,该项目已经被标记为Github存档,这意味着开发很可能已经停止了。因此,代码中出现的任何错误都将由用户单独解决,因为bug修复没有被合并到主代码库中。

Tensorflow ASR

Tensorflow ASR是Github上的一个语音识别项目,使用Tensorflow实现各种语音识别模型。虽然它不像其他项目那样为人所知,但它的最新版本似乎在几个月前的2021年5月才发布。

作者将其描述为“几乎是最先进的”语音识别,并实现了许多最近的模型,包括DeepSpeech 2、Conformer变频器、Context Net和Jasper。这些模型可以使用TFLite进行部署,它们很可能会很好地集成到任何使用Tensorflow的现有机器学习系统中。它还包含预先训练过的外语模型包括越南语和德语。

是什么让Rev AI与众不同

虽然开源语音识别系统可以让您免费访问优秀的模型,但不可否认的是,它们也让事情变得复杂。这只是因为语音识别是复杂的。即使在使用开源预训练模型时,也需要做大量的工作才能在服务器上对数据进行优化,并编写与之交互的api。然后,您必须考虑如何让系统平稳运行,以及在不可避免地出现错误和崩溃时如何处理它们。

使用像Rev这样的付费供应商的好处是,他们可以帮你解决所有棘手的问题。你会得到一个有99.9+%正常运行时间的系统,它有一个可调用的API,你可以轻松地将你的产品挂在其中。在不太可能出现问题的情况下,您还可以直接访问Rev的开发团队和出色的客户支持。

雷夫的另一个优点是最准确的语音识别引擎在这个世界上。他们的系统已经与所有其他主要行业参与者(如Amazon、谷歌、Microsoft等)提供的系统进行了基准测试。Rev每次都以最低的平均单词错误率在多个真实数据集中脱颖而出。

Rev Beats谷歌微软亚马逊

最后,当您使用第三方解决方案(如Rev)时,您可以立即启动并运行。您不必等待雇用开发团队、培训模型或将所有内容托管在服务器上。使用一些简单的API调用,你就可以将你的前端直接连接到Rev的ASR系统,并准备好当天就开始工作。这最终会为你节省资金,而且很可能会超过收回Rev收取的低成本。