九人必须阅读Rev人工智能专家的研究论文-Rev

去年，Rev的演讲团队开始了一个新的传统：每两周，我们同意阅读一篇学术论文，然后在午餐时讨论我们的想法和收获。我们的讨论有几个不同的目的——及时了解语音识别技术的最新发展，在同事之间引发友好的辩论，并帮助我们在一个陌生而令人不安的年份保持联系。

在这些“演讲午餐”环节中，我们读了很多非常有趣的文章，我们想在充满新挑战和新可能性的新一年开始之际，分享一些亮点。以下是团队最喜欢的选择。我们希望你会发现这些和我们一样有趣！

了解有关Rev世界级语音识别AI的更多信息

Miguel Jette，语音研发总监

自动语音识别中的种族差异(2020) –Allison Koenecke、Andrew Nam、Emily Lake、Joe Nudell、Minnie Quartey、Zion Mengesha、Connor Toups、John R.Rickford、Dan Jurafsky和Sharad Goel

这篇发表于2020年初的论文极为相关，发表之际，每个人都在反思美国和全球的种族差异。与当前客户合作，我们开始了分析我们在ASR中的自身偏见它促使内部努力培训一个更公平的ASR模型，并坦诚和公开我们可以改进的地方和方式。

米格尔·德尔里奥，语音工程师

神经网络很难学会生活的游戏（2020）-雅各布·M·斯普林格和加勒特·T·肯扬

我们午餐会上我最喜欢的一篇论文是“神经网络很难学习生命游戏”。它利用康威生命游戏的玩具问题，通过显示过度参数化的模型更可能收敛到一个解决方案来说明彩票假设的想法。虽然整篇论文都很优秀，但我特别欣赏对d-密度博弈的分析以及右数据集对于增加模型收敛的可能性也很重要。

Nishchal Bhandari，高级语音工程师

对预训练语言模型的否定和错误探索：鸟会说话，但不会飞（2020）-诺拉·卡斯纳和辛里奇·舒茨

我真的很喜欢这份报纸。随着机器学习（ML）模型发展到各种用例，可解释性变得至关重要。Kassner和Schütze建议使用否定和误判来评估预先训练的语言模型中存储的事实知识，并证明当前最先进的语言模型在这些探索任务中仍然很容易被愚弄。

Ryan Westerman，语音工程师

用于端到端ASR中上下文偏差的LM类和单词映射（2020）-黄荣清、奥萨马·阿卜杜勒·哈米德、李新伟和冈纳·埃弗曼

随着用于自动语音识别（ASR）的端到端网络的不断改进，行业需要找到解决方案，以解决可能已经用混合模型解决的问题。本文非常详细地解释了在合并用户特定命名实体的同时训练端到端模型的方法（类似于我们所说的自定义词汇表）。

了解如何利用Rev.ai

Natalie Delworth，语音工程师

哪些单词很难辨认？增加语音识别错误率的韵律、词汇和不流畅因素（2010）-莎伦·戈德沃特、丹·朱拉夫斯基和克里斯托弗·曼宁

我对这项关于单个单词错误率（IWER）的研究非常着迷。作者分析了不同的韵律、词汇、上下文和不流畅特征对单词级错误率的影响。我最感兴趣的发现是，即使在他们的研究中考虑了所有其他单词级特征后，个体说话人的差异在确定错误率方面也起着很大的作用。（在他们的统计模型中有44个自由度，所以他们的特征涵盖了很多！）由于这篇论文发表于2010年，我想知道2020年的模型上的最新研究会是什么样的——可能与作者的ASR系统有很大不同，比如端到端的模型——以及它是否会在不同的说话人之间产生相同的关于IWER的强烈结果。

约瑟夫·帕拉卡皮利，语音工程师

单头注意RNN：停止用你的头思考(2019) –斯蒂芬·梅里蒂

这是我最近记忆中读过的最有趣的报纸——也许是有史以来最有趣的。读了这篇非常诙谐的摘要后，我被吸引住了。（例如：“这项工作没有经过密集的超参数优化，完全生活在一台商品台式机上，在圣方济各的一个夏天里，这使得作者的小工作室公寓过于温暖。”)作者的目的是要表明，研究界可能太快将长短时记忆（LSTM）网络用于语言建模。他做得很好，在“过时”模型的基础上提出了令人印象深刻的结果，甚至更令人印象深刻的是：不需要过多的计算资源来实现这些结果。“去芝麻街。”

詹妮弗·德雷克斯勒，高级研究科学家

基于单头注意的序列对序列模型在交换机上的最新结果（2020）-佐尔坦·杜斯基、乔治·桑、卡尔蒂克·奥德哈西和布赖恩·金斯伯里

丰富的体系结构和训练方案排列使现代ML研究和工程相当令人头痛。本文提供了一个简单的体系结构，同时为seq2seq ASR中常见的不同正则化和优化技术提供了从业者指南。消融结果表是我经常参考的，用于理解每种技术的相对贡献。

Arthur Hinsvark，语音工程师

基于X向量的说话人匿名化设计选择（2020年）-布里吉·莫汉·拉尔·斯利瓦斯塔瓦、娜塔莉亚·托马申科、王欣、山口纯一、穆罕默德·毛乌切、奥列恩·贝莱特和马克·托马西

随着语音识别已经成为许多人日常生活的一部分，保护用户的隐私非常重要。本文详细介绍的方法允许在保留语义信息的同时对说话人进行随机化。我喜欢作者提出的方法，并认为这是迈向匿名化的良好第一步。

Quinn McNamara，高级语音工程师

高性能自然语言处理EMNLP2020（2020年）-加布里埃尔·伊尔哈科、塞萨尔·伊尔哈科、尤利亚·图尔克、蒂姆·德特默斯、菲利佩·费雷拉和肯顿·李

这不是一篇真正的论文，但我对任何能很好地解释最新概念的东西都有一个好感。这篇详尽（尽管很长）的教程和幻灯片非常好地做到了这一点。它们对高效自然语言处理（NLP）的最新进展提供了极好的概述在我们看来，维护合理的训练和推理运行时是至关重要的，因为语言处理机器学习正朝着更深更慢的体系结构发展。

了解Rev.ai能为您做些什么

九人必须阅读Rev人工智能专家的研究论文

米格尔捷特

2021年1月7日

Miguel Jette，语音研发总监

米格尔·德尔里奥，语音工程师

Nishchal Bhandari，高级语音工程师

Ryan Westerman，语音工程师

Natalie Delworth，语音工程师

约瑟夫·帕拉卡皮利，语音工程师

詹妮弗·德雷克斯勒，高级研究科学家

Arthur Hinsvark，语音工程师

Quinn McNamara，高级语音工程师

大家最喜欢的文字博客演讲

九人必须阅读Rev人工智能专家的研究论文

米格尔捷特

2021年1月7日

共有

Miguel Jette，语音研发总监

米格尔·德尔里奥，语音工程师

Nishchal Bhandari，高级语音工程师

Ryan Westerman，语音工程师

Natalie Delworth，语音工程师

约瑟夫·帕拉卡皮利，语音工程师

詹妮弗·德雷克斯勒，高级研究科学家

Arthur Hinsvark，语音工程师

Quinn McNamara，高级语音工程师

大家最喜欢的文字博客演讲