构建语音识别系统vs.购买或使用API

牧师;博客;资源;其他资源;人工智能与语音识别;构建语音识别系统vs.购买或使用API

如果你的公司经营的领域需要频繁的语音到文本的转录,你可能想知道,与通过诸如此类的服务购买按需访问相比,建立自己的自动语音识别系统(ASR)是否有长期的回报rev.ai.

这是一个棘手的问题,如果您在使用的最终结束中,则决定可能非常清楚或其他方式倾斜。但是,我们发现,对于几乎所有具有典型使用的企业,支付按需语音识别服务是一个较高的价值比建立自己的价值。这就是为什么。

开发团队的成本

关于建立ASR,你需要意识到的第一件事是,这不是一项简单的任务,你可以在海外或交给没有经验的工人。ASR背后的技术是机器学习,这涉及大量的数学,数据和软件领域专业知识。

你通常需要雇用不止一个人,因为在一个人身上找到所有这一领域的专业技能的机会是很少的,更不用说,即使他们有,建立一个ASR通常不是一个人的工作。您需要雇用多个人员来分配工作量。通常你需要雇佣的人建立一个ASR系统将包括至少一个机器学习的每一个科学家/研究员(博士级别),创建api和部署的软件工程师,和一个数据工程师帮助仓库和管理的所有文本,音频,和其他训练数据。

如果你想吸引优秀的工程师,你需要为这些职位支付的薪水范围很容易就在10万到20万美元之间,如果你想雇佣更有经验的人,薪水就会更高。因此,一个精简的开发团队每年至少要花费30万到60万美元。

“好吧,”你可能正在思考,“那不是那么糟糕。我将支付6个月至1年,然后我将拥有我的ASR系统以永久使用。“

不是那么快。虽然这是一个很好的梦想,但软件开发的世界本质上很乱。即使这样的小团队能够在这种短时间内建立高质量的ASR系统(非常不可能),它也不喜欢它是你可以建立的东西,然后期望它可以顺利地运行。像这样的机器学习模型在反馈循环中运行。

在生产中总会出现小错误,当服务达到更大的规模时总会出现问题,并且会有新数据注入到模型中。最后一点是至关重要的——需要根据新数据更新模型,以及出现诸如模型漂移,几乎肯定意味着需要定期再次再次培训诸如您的ASR等现场生产系统。

这一切都说明开发团队不是一次性的成本,它是至关重要的正在进行的在ASR系统使用的整个生命周期中可能存在的成本。所以每年至少要花30万到60万美元。

数据成本

不幸的是,建立ASR系统的成本不会停止开发团队。最新的,最先进的ASR模型实际上是深度学习模型意味着它们是大型神经网络大量的数据正确的火车。想想数百万或数十亿的数据点。

这意味着您需要一个巨大的音频文件库(和相应的文本文本)来有效地训练您的模型。除非你是一个谷歌等搜索引擎巨头或专用的ASR公司如Rev.ai、已访问的转录数据记录的团队50000年人类转录,你最有可能不会获得数据的规模需要训练一个这些系统。

当然,你可以出去收集这些数据,或者通过付费(比如花几万美元获得某些数据集的许可),从网络上抓取数据(运行数千小时的后台脚本),或者从你的客户那里收集数据(多年的来回,人际互动)。

显然,这些都不是中小型企业的理想解决方案。即使对于大型企业而言,麻烦往往远远超过它的价值。这就是为什么企业Juggernaut等彭博,副,织机等,以及其他人使用Rev来产生他们的转录。

基础设施成本

让我们假设您确实有培训高质量ASR模型所需的数据。您仍然需要基础架构培训您的模型。这是目前最先进的ASR装置.如果您不想阅读整个纸张,还有一个很好的艺术ASR模型摘要这里.下面是同一篇总结中关于训练模型的摘录:

该网络有12个剩余块,30个权层,参数为67.1M。培训是用nesterov加速梯度学习率0.03和势头0.99。CNN也使用CUDNN V5.0后端在火炬上实现。交叉熵训练花费了80天时间,使用Nvidia K80 GPU(每个GPU 64批大小)对15亿个样本进行训练

80天的培训对任何公司来说都是一个巨大的要求,请注意,这只是成功的培训运行。他们可能也有过多次失败的开始。还要注意数据集大小:15亿个样本!最后,他们需要一个Nvidia K80 GPU来进行培训。

这种硬件并不便宜,尽管他们可能通过跨多个更强大的GPU并行化来加速培训过程。这会带来培训时间,但也显着提升基础设施的花费。喜欢所有的东西,这是一个权衡,可能是一个你不想关心自己的权衡。

从预构建的服务或API购买的成本

现在我们已经概述了与构建ASR系统相关的一些主要成本,将其与替代成本进行比较是公平的:使用一个专门的团队已经构建的服务。Rev.ai的操作方法非常简单定价模型.您可以在每分钟乘坐音频/视频转录时支付超过3美分,或者您是企业客户端,您可以获得每小时1.20美元的同一服务。这约为28%的折扣。

如果你和大多数企业一样,你每年可能只需要抄录几千小时的音频。以每小时1.2美元的价格计算,每年也就几千美元,比你花在一个月内雇用一个开发人员!!但是,即使您的使用情况非常高,您也不太可能在建立自己的语音识别系统方面的成本效益分析转变的阈值。让我们再次查看自己系统的成本:

这是一个没有所有铃声和口哨的相当最小的系统。请记住,艺术系统的大多数国家在他们的研究论文中有4-10多位作者,这可能没有考虑到支持团队的软件和其他工程师,但不能直接在算法本身上工作。

所以在该成本范围的上端,您需要进行转录每年591,666小时的音频对于提示的余额,支持构建自己的系统。即使在那一点上,管理专用软件团队的所有头痛都可能不值得。