跳到内容

Rev自动转录:基准过程和WER计算

Rev自动转录:基准过程和WER计算

>博客>自动转录>Rev自动转录:基准过程和WER计算

今天,我们推出了REV的自动转录服务,一种新的服务线,允许用户通过使用复杂的语音识别算法轻松地将音频和视频转换为文本。

我们决定与谷歌、亚马逊和微软的语音到文本服务一起测试我们的新服务线路的字错误率(WER)。

对公共播客的测试结果揭示了我们新的自动语音识别(ASR)服务优于这些主要参与者。

下面,我们通过我们如何计算WER和我们对该基准测试测试的方法。

播客是一种流行的和强大的转录案例。转录帮助创造者编辑过程和出版商驾驶SEO。对于两者来说,转录的准确性都具有很大的差异。它们还代表了具有多个发言者和跨谈的自然对话,这就是我们选择在播客录像上进行这些测试的原因。

定义单词错误率

有多种工具可以测量ASR服务的质量,例如,sclite.。我们开发了一种更强大的内部测试方法,即考虑了同义词,拼写错误和数字表示(例如“十分”为“十”)。虽然我们以略微不同的方式接近问题,但我们的WER仍然来自行业中使用的传统levenshtein距离。

公式如下:wer =(s + d + i)/ n

  • S是替换的次数
    • 例如,参考:“我去商店”与假设:“我去了岸边”
  • D是删除的次数
    • 例如,参考:“我去商店”与假设:“我去了商店”
  • I是插入的次数
    • 例子:" I went to the store " vs假设:" I went to the party store "
  • N是参考文献中的字数

建立测试套房

我们的演讲团队随机选择了来自一些最受欢迎的播客的20个播客剧集,如“美国生活”,“日常”,“我最喜欢的谋杀”和“豆荚拯救美国”。这些剧集量约为约18小时的测试Audios,其展示了许多不同的声学条件。选择的播客代表了具有许多不同扬声器的广泛播客类型:故事用声音效果(歧视),与大量扬声器重叠的小组讨论(阅读),以及脚本新闻播客(每日)。

下面是我们生成的步骤Rev.com.,谷歌,亚马逊和微软为每个文件的WER:

  1. 创建参考记录(我们使用来自Rev.com的人工生成的逐字转录程序)。
  2. 通过Rev自动转录、谷歌的增强视频模型、Amazon转录和Microsoft Speech-to-Text运行每个音频文件,以获得ASR转录。
  3. 将ASR文本中的每个单词与参考文本进行比较,并计算单词错误率(WER)。

结果:

下图显示了各服务的平均WER。

语音识别发动机的字错误率;Rev,谷歌,亚马逊,微软

下表显示了每个文件测试的WER,并包括每个播客WAV文件及其相应的转录器以供参考。您还可以访问所有这些数据谷歌驱动文件夹中。

Airtable上面显示:

  • Rev.ai的Wer是20播客中的15个中最低的。
  • 谷歌视频模型的WER在剩下的5个播客中最低。

一些考虑因素

  1. 如果您决定从iTunes重新下载播客,请注意,播客中的广告可能已更改,使成绩单不匹配。如果您打算使用此测试套件,请务必使用Google Drive中提供的音频文件(链接到上图)。
  2. Wer只是一种测量质量的一种方法。具体来说,它只看起来的准确性。它没有考虑到标点​​符号和扬声器日益改估(知道谁说什么)。
  3. WER同样重量所有误差,但获取名词和行业术语正确比“嗯”和“啊”更重要。添加自定义词汇量可以大大提高重要术语的准确性。此功能即将推出Rev自动转录。

演讲者日记的力量

并非所有音频或视频文件都涉及一个人叙述到录像机中。更有可能的是您的文件包含多个扬声器。这些扬声器有时可能会互相切断或互相交谈。他们甚至可能听起来相当相似。

Rev自动转录的一个很酷的功能是演讲者日记。语音引擎识别房间中不同的说话者,并为每个人赋予文本属性。无论是两个人在面试还是四个演讲者的小组,你都可以看到谁说了什么,什么时候说的。如果你打算稍后引用演讲者的话,这一点特别有用。想象一下,把一段话给了错误的人——更糟糕的是,因为WER率高,把关键信息搞错了。

并不是所有的ASR服务都提供记录,所以如果你经常同时记录多个人的谈话,请记住这一点。你会想要能够快速分辨它们。

其他因素需要考虑

WER是一个非常有用的工具;然而,当你选择ASR服务时,这只是一个考虑因素。

需要记住的关键是,如果你不规范文本中的大写、标点符号或数字,你的WER将是不准确的。Rev自动转录自动转录成句子和段落的口语单词。如果你要抄写你的音频文件以增加可访问性,这一点尤其重要。带有这些特性的文本格式将大大方便您的听众阅读。

WER还会受到许多其他因素的影响,如背景噪音、扬声器音量和地区方言。想想你在活动中给某人录音或听采访的次数。你能找到一个安静、安全、远离喧嚣的房间吗?演讲者的声音是否清晰、洪亮?很有可能,在某些情有可原的情况下,不允许有完美的环境——而这只是生活的一部分。

某些ASR服务无法区分这些情况的声音。其他,如Rev自动转录,在转录扬声器音量较低的文件中更好,或者它们远离记录器。不是每个人都会有Mick Jagger的肺部能力,那很好。虽然我们不需要最小卷,但其他ASR服务可能。如果您倾向于采访更安静的谈话者或在您无法在您无法产生大量噪音的环境中,请在进行选择之前注意任何要求。

最后的想法

我们希望这有助于您了解我们在公共播客集合中计算WER的过程。如果您有任何疑问或希望有关这些结果的其他信息,请联系我们

实惠,快速转录。100%保证。