跳到内容

Rev的AI专家谈论ASR和NLP堆栈溢出播客

牧师

2021年6月24日

Rev-AI-Experts-Talk-NLP-ASR-Stack-Overflow

牧师;博客;人工智能;Rev的AI专家谈论ASR和NLP堆栈溢出播客

牧师演讲团的三名成员最近出现的堆栈溢出播客讨论自然语言处理和语音转文本系统的前沿发展,包括Rev.ai,我们自己的世界级语音识别引擎。

在本集中,人工智能研发总监Miguel Jetté、人工智能工程经理Josh Dong和高级语言科学家Jenny Drexler探索:

  • 自动语音识别(ASR)的历史。
  • 先进的机器学习模型正在推动语音到文本系统的创新,包括我们自己的Rev.ai。
  • 下一代AI的特征和服务可能会在未来几年内生产。

您可以找到下面的播客的完整成绩单。享受!

成绩单

介绍

本·波普尔我是说,这东西太迷人了。你能不能试着给我解释一下这些系统是如何进行自然语言处理的?

约书亚董所以语音识别的工作方式是你有一个深度神经网络,它接收音频并将其转换成某种语音序列。实际上,它不是一个序列,而是一棵包含所有可能性的树。所以当我说cat的时候K-在“但有时你必须不确定性。所以这就是树的用武之地。然后混和部分就是你有非神经网络组件,如FSTS,或统计n元模型,然后找出什么,哪条路是有道理的,对不对?哦,“猫”这个词。所以,也许我只是要遵循和标志,作为一个词。随着端到端种型号。他们可以使用类似的方法,其实。但这个想法就好了,好了,我们可以只使用序列序列建模直接从音频到文本?

(介绍音乐)

主要剧集

英国石油公司嘿,大家,欢迎来到堆栈溢流播客。今天,我们有一个非常特殊的插曲。这是一个赞助播客,由Rev的罚款给你。你可能不知道这一点,但我实际上一直使用Rev作为记者,我曾经用它来转录的采访。现在我使用一个名为descract的小产品来播客,这可以将言语翻译成文本,它的超级伟大,节省了大约时间,使编辑过程更轻松。我们今天有三位伟大的客人从Rev,他们将与我们谈论AI和机器学习,并建立一个是自然语言处理系统的NLP。我们的客人今天是米格尔·杰特,艾尔·艾尔·艾德·杰特·艾尔·德···董首,我们有约书亚董,他是瑞申岛的AI工程经理,我们有珍妮德雷克勒,他是一名高级讲师科学家,欢迎三个人。

珍妮德雷克斯勒谢谢!

米格尔Jette谢谢你!

英国石油公司米格尔,跟我说说你的背景。我知道你曾经告诉过我你在学习计算生物学,我不会问你那是什么。因为那完全是另一件事。但你是如何从那里进入人工智能、机器学习和自然语言处理领域的呢?

乔丹是的。所以我想你们得倒带回到2003年,2006年。我当时在蒙特利尔的麦吉尔大学攻读数学硕士学位。我把它应用于计算生物学。但更具体地说,这是研究系统发育树和DNA序列的问题。那时我想研究进化理论,研究进化树中特定特征的进化,比如大脑的大小或股骨的长度,诸如此类的东西。我在新西兰完成了我的硕士学位。但当我回到加拿大,我的一个朋友,Jean-Philippe Robichaud在Nuance工作Nuance在蒙特利尔有一个很大的实验室,他在做一个我以前从未听说过的东西叫做自动语音识别。但是系统发育学和ASR这两个领域在算法上有很大的重叠。在某种程度上,这是我职业生涯的自然发展。

英国石油公司所以我的印象是,米格尔,蒙特利尔成了神经网络、深度学习、机器学习等的温床。这是你踏上这条道路的原因之一吗?

乔丹是的,我认为你可以追溯到一个叫北电的公司,北电有一个很大的研发团队。他们失败得很惨。但北电的每个人都走自己的路,到处开小公司。所以蒙特利尔就变成了一个,非常适合人工智能的地方。

英国石油公司所以,你们知道,对于那些不知道的人来说,用相对外行人的术语来说,尝试进行系统发育排序和尝试处理语音之间有什么相似之处,你们注意到了吗?这是某种模式识别吗?

乔丹是的,在这两种情况下,你都在分析一系列的状态或者一系列在某种程度上相互依赖的符号字符,而且实际上,很多算法都非常相似。在语音识别中我们使用GMM, HMM。它叫做高斯混合模型,隐马尔可夫模型。我们在这两个领域和算法中都使用它,比如Baum-Welsh算法和Viterbi算法。事实上,这有点令人惊讶。但如果你仔细想想,这是有道理的。

英国石油公司Numence显然,最近被微软收购的空间中的一个大名字,如果我没有弄错,所以我猜Cortana会变得更加流利,很快,但你是如何让你从差别到转申的方式?那边的路是什么?

乔丹因此,在Nuance中,我在演讲识别中工作适用于IVR,所以我还涉及手机应用程序。所以这是那些你知道大多数人鄙视的电话系统。但-[米格尔笑]

英国石油公司如果您呼吁药房,请说是。

乔丹完全是。但这是一个非常受欢迎的ASR回来。它真的很有趣,很多伟大的ASR开发来自IVR应用。你知道,手机开始存在,你知道,就像我在iPhone之前在Nuance工作时,被发明了。因此,当它开始时,我们,我们建立了一个叫做Nina的东西,这是一个使用语音的手机助手。是的。然后我搬到了一家名为VoiceBox的公司。歌唱箱在西雅图,他们专注于车载语音识别。它真的在歌唱箱上,我开始在更开放的域名,大词汇系统上工作。我发现迷人的是,因为在它始终之前,你总是基于一些非常明确的用例构建应用程序。 But when you’re you start thinking about open domain speech, then, you know, it’s, I find it’s a much more interesting problem.

英国石油公司所以,对那些不了解历史的人来说,你提到了SRI,维基百科的Siri是从SRI项目中分离出来的。最初的语音识别是由细微差别提供的Siri可能是最著名的计算代理,对吧?那就是每天与人类进行自然的语言对话。

乔丹是的,完全。我很幸运能做Siri的第一个化身。

英国石油公司所以,告诉我,是一点点,当你练到牧师,你的工作是什么?我知道,你是他们的一些AI驱动NLP的东西工作第一人之一。什么是你建?像工具和技术什么是你正在构建?我知道,那将是一个很好的SEGUE,然后走了过来乔希,谁进来后不久,你帮助它过渡到一点点比例模型的多吗?

乔丹是的,完全。也许真的很快,我可以说创造一个关于Rev. Rev的非常快速的故事,它是在2010年创立的。它是在未命令,a,什么所谓的双面市场,他们专注于语言任务。因此,在家中有逆转,现在从家里工作了大约50,000个反转,我们让我们让客户发送他们想要转录的录音或类似的东西,而Revers可以自由地挑选工作在。在某种程度上,有时我称之为高级转录。但是经过大约六年的人,与人类这样做,他们有点意识到ASR这一点,这种新的新兴技术将成为他们的业务的破坏性技术,他们开始在2016年左右投资很多演讲识别。And that’s when I joined. Yeah, so when I joined, there was no speech recognition. So my, my main goal was to kind of prove to the founders and to the leadership team that the data they had accumulated was was worth a lot of money and was going to be useful for speech recognition.

英国石油公司事实上,人们给了你很多很多的音频,他们用set可能做了注释,他们可能会说,我们在说这种语言,或者有两个说话的人,或者,你知道,命名这两个说话的人。然后人们开始做转录。付钱的人通常会给出对与错的反馈。这是一个梦想,你知道,当你试图为一个大ml模型建立数据集时,是有大量的数据,然后由人类对这些数据进行清理,整理和分类,对吧?

乔丹哦,是的,肯定。这绝对是这个机会吸引我的地方。我认为我必须承认创始人,他们真的想要一个可以评估质量的领域。当你建立一个数据集的时候,你需要考虑质量问题。所以,是的,这是一种完美的匹配。

英国石油公司在我们跳转到杰克之前,告诉我,你知道的,你当我们提到过一点聊天在这之前,我认为Perl和Bash的一些事情你使用一个小鞋带放在一起一个树屋,我认为你怎么描述它,但是你是什么建筑?你一起黑客只是你在早期尝试,像你说的,为了证明,嘿,你知道,你有这个更大的数据集,如果你让我们建立正确的工具,你知道,我们可以我们可以提供一个真正有价值的产品?

乔丹是的,我的意思是,我实际上经常使用堆栈溢出。谢谢你的产品。[米格尔笑]

英国石油公司是的,当然,欢迎复制粘贴。[米格尔笑]

乔丹我从来没有那样做过。所以,是的,你是对的。所以一开始,我来自,我想,可能是更传统的学校。所以我使用了大量的Perl和Shell脚本。一开始,你知道,在最初的九个月左右,实际上是大量的探索和挖掘所有的数据,因为,你知道,他们说,我们有这些数据。首先,你必须找到它,你必须弄明白它是如何组织的,哪些数据是有用的,不,你知道的,所以我写了很多,你知道,一个Shell脚本,你知道,挖掘,挖掘数据,并找出如何使用和如何使用它。但是,是的,它是一个大的,有点像大杂烩,不同的脚本。这在一定程度上是有效的,它创造了很好的概念模型证明,事情最终在一个人的团队中是有效的,在两个或三个人的团队中是有效的。但是,就像你说的,我经常把它描述成一个摇摇晃晃的树屋,你知道,就像,我建了一个,你知道的,这个树屋用小柱子,你知道的,勉强挂在上面,然后,就在某个时候,乔什加入了这个团队。我想说的是,你知道,乔什在那里住了几个月后,它开始变得更像,比如说,一个农舍,而不是一个树屋。

英国石油公司所以杰克,是的。跟我们说说你的背景,也许说说你的教育背景,然后说说你是如何在雷夫找到自己的。

JD是的,当然。我在大学的专业是统计学,但我想在座的很多人,只是对语言感兴趣,有很强的计算机科学技能。这就是让我来到瑞夫的原因,我实际上是人工智能团队的二号员工。我想问的是,我们如何才能在工程上取得成功?它的一部分就像Perl,让我说清楚,它是我的第一种脚本语言。所以它在我心里有特殊的位置,对吧?没有反对它。

英国石油公司当然,这是一把瑞士军刀。所以你知道,你可以为你需要的任何东西使用它。

JD完全正确。但事实是,你也必须面对现实,对吧?不一样比较两个。但是,如果你的筹码是像COBOL一样,你就不能聘用,你知道的,想着Python的一样,每毫升开发人员使用Python。并取得了相当一段时间前。所以它的一部分是设置我们注册成功让其他人可以在上面运行。而且实际问题想模块化,可重用的组件,能够测试数据准备的实际件。

英国石油公司做了很多意义。我们刚刚播出了一集,比如,三周前可能是两个,创始人正在解释允许原始工程团队选择Ruby的致命错误。现在他们正在努力扩大,只是找不到很多合格的Ruby开发人员。特别是是的,没有像一个有兴趣学习的年轻人的伟大管道。所以。

JD是的,喜欢,客观地,它没有错了。这只是你必须是务实的。现在,招聘是如此艰难,作为一个初创公司,如果你这样移动,我们必须使用类似的有吸引力和热的技术。

英国石油公司你有了这个摇摇欲坠的树屋,你想要现代化一些语言选择。说到建筑,你还关注什么呢?我知道,你之前跟我谈过DevOps的想法?但是对于ml ops呢?对于传统的DevOps来说,这有什么不同呢?

JD是的,它有点有趣,这个ml ops的事情,只是为了区分观众与AI OPS不同,AI OPS将AI带入DevOps,ML OPS将Devops带入ML。所以在它的核心,ML OPS,仍然只是Devops,特别是在开始层面,他们就像泪水一样。当我们加入球队时,你知道,没有任何东西甚至没有产品销售。所以我立即带来了,让我们实际拥有可重复性,让我们有集装箱,我们只是把东西放在码头东西中。所以我们可以将它发送到平台团队。让我们有一个测试管道。实验代码与生产代码的不同之处在于您通常有很多死人的码路径。我认为这真的很棒的白皮书,谷歌称之为机器学习的隐藏技术债务,真的很棒。但它肯定适用。就像你试验一样,你实际上并没有测试那个代码的代码甚至写测试,因为你可能会在一天内放弃它。 But you have to make a clear distinction between that code and your production code. Because the production code, that’s what customers see, you know. And so setting up the pipelines we use Jenkins, right? Was kind of level one for DevOps and getting to ml Ops, like, that’s kind of higher level stuff in how you think about, well, how do we deploy models? How do we manage metrics, because a lot of these things are soft, you know, it’s like, just because the metric says it’s better, it doesn’t always mean it’s really better. Sometimes it’ll be better than the metric won’t even say it’s better. They’re really small, little edges, especially as you deploy faster and faster, your improvements will become harder and harder to discern, and sometimes even a little bit conflicting. So ml Ops, really, building off of DevOps becomes focused on how do we organize the data into a state that can be continually live, right. So we don’t have model drift. How do we deploy models quickly, so that we can do multi-pronged AD testing. And I would say that we’re kind of on the tier of automated training. And today, we’re looking into automated deployment, how do we just take away the all of the deployment concerns from other developers, so we don’t really have to think about evaluation as a thing to do and it’s just automatic.

英国石油公司所以你知道,当我们以前聊天时,你现在提到了这一点。这可能是一个混合模型。因此,它有一些较旧的元素,米格尔已提到,您知道的一些旧算法和技术在其他字段中应用,然后有一些较新的,您知道,那里的ML和深度学习的东西。你能跟我说话一点,是的,是的,这是一个混合模型的方式?然后我们也许,詹妮弗,我们可以聊一点关于那样的,就像你想去的地方,你知道,到那种结束到底解决方案?

JD是的,我一定会把这些给珍妮。但是,就混合模型而言,它的意思是,语音识别的工作方式是你有一个深度神经网络,它接收音频并将其转换成某种语音序列。实际上,它不是一个序列,而是一棵包含所有可能性的树。所以当我说cat的时候k '是的,但有时你会有不确定性。这就是树的作用。然后混合部分是非神经网络组件,比如FST或统计n-gram模型,然后找出什么,哪条路径有意义,对吗?哦,猫是一个词。所以也许我会跟着它,把它作为一个词,用一种端到端的模型。实际上,他们可以使用类似的方法。但是这个想法就像,我们可以直接使用序列到序列的建模从音频到文本吗?

英国石油公司很酷。好吧,乔希,谢谢你。听到您如何在您在那里建立一些基础架构的情况下致力于您的内容,它真的很有趣。是的,这种从旧模型和混合模型转换到更新的结束模型的想法,其中一些非常有趣的AI。珍妮,让我们过渡给你。告诉我们一些关于你来自学术方面的地方以及你如何进入这个领域的地方。您的头衔是代表的高级言语科学家。

JDR是的。对我来说,我也有点像乔什,我对STEM领域很感兴趣,在大学里学习了计算机科学,我也对语言感兴趣,我在大学里学了很多心理学和语言学,我也辅修了神经科学。但是当我在大学的时候,那是很久以前的事了,现在,你知道,我在一个相对小的项目里,没有特定的自然语言处理课程。所以我做了一些机器学习,但没有机会深入研究NLP,或语音识别之类的细节。所以大学毕业后,我想直接进入软件工程领域,但那并不是我的兴趣所在,我对是否要去研究生院犹豫不决。所以我在大学毕业后工作了几年,很幸运地找到了一份翻译工作。这是米格尔所说的老技术的翻译版。所以这些统计模型,你知道,没有任何深度学习。但我决定去读研究生,实际上决定做一个更注重演讲的项目。我就是这样进入语音识别领域的。 The transition in the field to deep neural networks really happened right around when I started graduate school and 2013. And so that was sort of my first experience with that. So it was definitely a big transition going from, you know, my work with statistical models to understanding these deep neural network models and how they work.

英国石油公司是的,2013年,那是同一年,他们有一种类似于监管图像网络的竞争,你知道,在他们使用旧的模型之前,然后他们引入了一些ml和dl技术。突然之间,就有了一步一步的变化,对吧,在精确度方面?

JDR是的,当然。也差不多。当Siri出现的时候,我记得当我第一次申请研究生院的时候,你知道,这个领域之外的人并不真正理解我在说什么,或者我想学习什么。但当我进入研究生院开始学习时,我可以对人们说,哦,这就像Siri,人们马上就会知道我在说什么。

英国石油公司正确的。正确的。你能不能帮我一个小因为喜欢,当你说,你知道,老技术进行了详细统计模型为主。你知道,这是有道理的。但是,但在同一时间,我经常听人说,喜欢,嗯,你知道,机器学习深度学习。Deep down is just, you know, statistics anyway, like, what, what is the difference, like when we’re talking about sort of that black box model with different weights, you know, you’re set, you’re giving it these inputs, and then like checking the outputs and trying to adjust the weights to get towards what you want and that reinforcement learning? How does that differ from other statistical models that, you know, you had previous experience with on the academics?

JDR是啊,所以肯定是一些底层的数学之类的,当然,统计原则有很多相似之处。随着统计模型,通常情况下,我会说他们是一个黑盒子比神经网络模型的少了很多。因此,对于机器翻译,例如,什么是统计模型试图做的其实是有点计数源语言每一个可能的对词和目标语言和建立的概率表怎么可能一个特定的词在源语言被翻译成目标语言中的单词。同样,对于我们谈到,我认为乔希提到的统计n元模型的语言模型,即,再次,仅仅是一个大概率表,告诉你不同的n-gram的可能性。因此,在一般的统计模型,基本上计数统计您的数据。而他们更透明一点在能够在挖,看看模型了解到条款。有了这些端到端,深度学习模型,所有的就是那种埋在你的网络中的权重。而且它的很多困难去中和了解到底是什么模式是真正做。

英国石油公司让我看看我能不能走回去,告诉我我做对了没有。是的,如果你想象一下以前的例子,Josh说,你知道,它说的是“猫”,但也许,你知道,你说的是“帽子”,你知道,如果它在句子中有其他的词,或者一些,你知道,像,猫和帽子可能适合的统计模型,你知道,那么它可能能够找出,好的,我认为这比那更有可能是他们所说的。所以我们可以从那里向后看,或者像你说的,如果是翻译的话,好吧,你知道,如果我们在这句话中,遵循,你知道,我们感到自信的几个词,可能,你知道,我们可以推断出最后一个词,你知道,需要什么意思。而在深度学习模型中,对,你,再次,你在调整权重之类的东西,但是在黑匣子里,有一种魔法正在发生。你只要不断调整它,你就会知道,结果会越来越好。你不知道为什么。

JDR完全正确。这个统计模型的另一个特点是,通常情况下,你会有一系列较小的模型来解决较小的任务,这些任务最终会放在一起,完成语音识别或翻译。就像杰克与演讲,谈论这些混合模型,我们讨论的是,你有一个模型,可以帮助你从音频语音表征,然后我们一块单独的词汇实际上定义了每个字的发音我们希望能够辨认。他们有一个独立的语言模型来处理单词的顺序和某种意义的端到端模型。这些都是一起学来的。一个目标,一个可以做所有事情的大模型。本(笑)

英国石油公司正确的。一个不可思议的人工智能系统。

JDR没错,是的。

英国石油公司好了,告诉我一下,是的,你每天工作,然后我想和你聊天一点什么,你知道的,你看下管,你知道,牧师会专注于未来几年?你对这类更广泛的技术领域或未来十年感到兴奋的是什么?

JDR是的,当然。所以我目前的工作主要集中在从混合模型到终端模型的过渡上。现在,在生产中,如果你使用汽车在rev.com上转录,或rev.ai API,这是使用一个混合模型,我们做了很多研究端到端模型,试图找到,你知道,最好的配置,架构,工具包使用特定数据,并试图理解,你知道,精确度和性能之间的权衡,以及最终,我们如何将这些端到端模型投入生产。这就是我每天的工作重点。

英国石油公司我知道你告诉我某些事情,你很兴奋,其中一个是双语翻译,你能告诉我一点关于挑战,你知道的,你认为这类系统要能够实现在不久的将来?

JDR绝对地。所以这是一个真正酷的关于这些结束模型的事情就是基本上,无论你拥有什么数据,它都可以学习处理。因此,使用不同种类的序列,非常相似的架构可以进行序列学习。因此,您可以使用用于语音识别的模型架构实际上看起来与您可能用于翻译的内容非常相似。并且您也可以使用同一架构,在许多不同语言中向音频说出源,并且能够在一个模型中进行任何转录。它与混合模型更难地将所有正确的碎片放在一起以使其发生。但最终结束,它非常简单。所以我们真正兴奋地扩展到其他语言的事情之一。特别是,当我们这样做时,利用我们已经必须实际生产可以在同一时间说英语和西班牙语的模型的英语数据。我们知道世界各地的许多语言借用英语的文字和短语,很多人可能会在多种语言之间的对话中来回转换。 So we think moving forward with these end to end architectures that we’ll be able to have some pretty cool results in terms of multilingual transcription.

英国石油公司是的,太棒了。所以我想是的,你知道,你提到的其中一件事,我想谈谈的是一种更高层次的想法,你知道,功能集或更高层次的产品,可以补充人类正在做的事情。所以很明显,每当我们谈论优步和无人驾驶汽车,或者让我们说Rev和自动转录,你知道,一个问题是好的,那么,所有从事这项工作的人会发生什么?你能告诉我这是如何工作的,以及你对人工智能和人类如何高效合作的看法吗?

JDR是的,当然。正如米格尔提到的,雷夫的任务是创造出色的在家工作。我认为雷夫仍然是我们自动抄写的最大客户。所以我们所做的是把我们的抄写作为一个初稿,我们的Revver自由职业者可以编辑,而不是从头开始做所有的工作。所以基本上,我们的技术越好,它们的生产力就越高。这对我来说很重要。这是我非常喜欢雷夫的一点。

英国石油公司我是一个客户,因为我们在描述中进行转录。然后我把它寄给一个清理它的人。我会用这个播客做到这一点。超级金属。

JDR是的。所以我认为,只要抄写对我来说是好的,你总是想要人类的触摸,人工智能和人类实际上会犯完全不同的错误。所以我认为人工智能经常犯的错误有点奇怪,几乎令人讨厌。因此,即使我们能够达到人工智能犯的错误与人类一样多的程度,我认为你总是希望有人通过编辑来阅读,特别是如果成绩单将用于,你知道,专业目的的话。就向其他服务的发展而言,比如总结,我认为我们在Rev上看到的一件事是,拥有这个市场和这种数据收集管道是多么令人惊讶。所以我感到兴奋和充满希望的是,你们知道,Rev可以再次利用这个自由职业者的市场,提供其他服务。我们可以建立这样一个飞轮,我们现在有这样一个飞轮,我们可以让人类执行一项任务,我们可以用它来生产人工智能,这可以使人类更具生产力,并继续这个循环。

英国石油公司对,您可以使用一些技术,您只是提到和建造翻译服务,而AI则第一次通过。但是,你知道,作为讲两种语言的人,真的,你知道,确保它是在点的情况下,并不缺少这种性质的文化习语和事物。和Josh,你想与可能在类似地区工作的人分享或希望进入AI,ML和自然语言处理的人怎么样?

JD也许可以给研发部门一些建议?

英国石油公司好的。

JD与开源社区有这么多的伟大的东西。我只是想说,是的,评估解决方案很难。这就像一个多武装的强盗问题。在那里评估所有这些解决方案,特别是在语音识别中。现在我们有什么ESPNET,WENET,SEGIGALBRAIN,所有这些类型和现任KALDI。我认为与您的团队一起进行的内容是如何设置那些常见的接口,您如何考虑实际数据结构而不是代码,以及您如何长大的团队,例如,我们逐步扩展我们的团队service from our deliverable of the machine learning model, to our platform team, having that shared interface has been everything, you know, it’s like, audio in, text out, it’s easy to say that, but once you have to, you have to define that what does that actually mean? Text is not text,. Does the text have any punctuation in it? How does it delimited? Yeah, just a thought for all those startups out there. You know, it’s, it is hard, but you have to think about in terms of data structures.

乔丹是的,这确实越来越难保持,你知道,保持最新的技术,我不知道,每周发表多少篇关于语音识别的论文,但现在,它确实在升温。这肯定是一个很好的评论。

英国石油公司是的。我的意思是,关于这个特定领域的一个有趣的事情是,对,有很多开源工作。有些大公司显然在专利和产品驱动方面投入了大量资源。但同时也要收购一个开放的人工智能,并试图将其合并。看起来确实有很多这样的东西,可能是因为学术界已经接受了这样的观点,那就是,即使是最尖端的发现也应该更频繁地被分享,并以某种方式将其汇集到竞争对手那里。

JDR我感到惊喜的是,许多大型行业参与者都愿意发布他们的前沿技术,甚至将其中一些技术开源。虽然很难对所有的东西进行评估,但能对所有的东西进行评估还是很好的。你知道,如果你想建立一个像这样的系统,你真的不需要从头开始。

英国石油公司我认为这可能是有点像一个自下而上的事情。You know, I’ve heard that from an engineers who work here and have gone on to do other stuff in the data science world, you know, yeah, you know, data scientists and ml, folks, they have no shortage of job opportunities. So they’re gonna choose to work at a place where they, you know, sort of respect, you know, the ethics or the approach that the company has to things like, you know, academic publishing or an open source.

乔丹是的,我同意,你知道,软件已经非常自由分布,这是惊人的。例如,kaldi可能打开,方式更多的语音识别应用程序,我们可以计算。所以,这是,它非常棒。但黑暗的一面是你不能没有数据就无法做任何事情。所以,你知道,我们很幸运能在Rev.这里拥有这些数据。不是每个人都有那种特权。作为我想做的公司的一件事就像,分享我们可以分享的一些好的分享,分享它,以便人们可以测试他们的解决方案并重现,你知道,学术结果更容易。因为珍妮早些时候说,有时会难以重现结果。但是是啊,现在是一个非常令人兴奋的领域。

英国石油公司在签字之前,如果你是一个年轻人,要么进入这一领域,通过学校,或者刚刚出去找工作,你会推荐什么资源是否这是一个播客,视频系列,特殊的书,人们对学习感兴趣,你知道,NLP,特别是毫升?你有什么推荐的资源吗?

JD该字段变化如此之快。这是,你必须进入它。

JDR是的。就书籍而言,要跟上时代真的很难。

JD是的,就书而言,我认为唯一不变的是数学。所以要扎实掌握统计学,很多基本的东西,比如梯度下降,这是不会改变的。但就该领域的领域知识而言,你只需要去实习就行了。[约书亚和本笑]

乔丹如果我要推荐一本书,它叫《自动语音识别:深度学习方法》作者是李邓和董宇,这本书涵盖了语音识别的基础知识。我认为这是一本很棒的书。但就像乔什说的,情况变了很多。所以我不会纠结于细节,而是更喜欢技术和数据。

JDR我想说的另一件事是,我认为有了这些深度学习模型,这个领域正在越来越多地向非常相似的模型发展,这些模型被用于许多不同类型的任务。所以我会把重点放在机器学习和理解的核心基础上,而不是试图很快地专注于一个特定的领域,比如NLP或ASR或类似的东西。

(音乐)

英国石油公司好的,我是Ben Popper, Stack Overflow的内容总监。你可以在推特上找到我@BenPopper,也可以给我们发邮件podcast@stackoverflow.com。所以所有的牧师们,你们是谁,只是给那些一直在听的人一个快速的提醒,如果你想被找到,在互联网上哪里可以找到你?

乔丹好的,我是Miguel Jetté,我是Rev.的人工智能主管,你可以在LinkedIn或Twitter上找到我。我的账号是@bonwellphotog。

JD我是Joshua Ian Dong,你可以叫我Josh,我的GitHub句柄是JDongIan。我一直在LinkedIn上。所以请联系我。

JDR我是珍妮·德雷克斯勒。是的,不是很多地方。你可以在网上找到我,但我想LinkedIn也是最适合我的。

英国石油公司而对于人谁一直在倾听的兴趣,他们希望更多地了解启,他们希望看到什么样的职业生涯中你有开放的,他们应该去哪里?

乔丹Rev.com/careers。

英国石油公司很简单。好吧,谢谢你们三位这么做。当我发布抄本的时候,我一定会把它的制作过程记录在节目中。所以人们知道。我们说话的时候在跟踪技术。