跳到内容

Intspeech 2020:扬声器日复速度Q&A

米格尔Jette

2020年10月23日

Rev at Interspeech 2020 Speaker Diarization

>博客>人工智能>Intspeech 2020:扬声器日复速度Q&A

interspeech 2020.最近邀请了Rev的演讲研发总监Miguel Jette,参加即将到来的教程,讨论如何在行业中使用发言人日记。教程会话的标题是“语音识别背景下的扬声器日益衰退的神经模型”.在这次与两位组织者Kyu和Tae的快速问答环节中,Miguel谈到了日记在Rev中是如何使用的,以及我们在行业中使用日记所面临的挑战。

重点是重点的问题

问题1:

Rev.com的演讲API拥有客户所需的质量转录服务。哪些行业部门是您的主要目标领域?您的客户如何为其业务提供贵公司的产品?

在Rev,我们合作的主要行业是:教育科技媒体.在这些非常广泛的领域中,应用程序的类型差别很大。对于一些人来说,最终的文稿是他们的业务需求(会议文稿、播客和字幕)。对于另一些人来说,他们使用文字记录来提取更多的价值(市场/用户研究)或在其上构建产品(语言培训或人员培训)。

将我们与其他语音API分开的另一件事是我们在自己的内部产品中使用我们的API,就像Auto-TC Rev.com,我们的Rev Live字幕为Zoom.使用我们自己的API使我们能够从我们的Revvers池中获得反馈,并推动我们以有意义的方式改善产品。

问题2:

区分Rev.com从市场上的竞争对手的技术区分最值得注意的功能是什么?

准确性和易用性。

我们不会复杂的东西。我们不强调用户使用特定的云提供商发送Audios(S3,Google云等)。我们只需要一个链接。简单是Rev.ai的关键。我们的APIIS易于使用,非常准确。

问题3:

平台中处理了多少种不同的域类型?如何使用扬声器日期?

我从来没有统计过,但是有几十个不同的高级领域(主要的领域在上面的第一个问题中列出)。就像我们的ASR输出一样,日记结果经常被用作输出的一部分(如会议/播客文本),有时也被用作下游应用的一部分,在这个应用中,知道谁在说特定的单词(如面试分析或组织非结构化数据)是很重要的。

问题4:

Rev.com的演讲API提供流媒体ASR吗?如何在这种情况下考虑扬声器日期?以在线日益改善的形式?如果是,则在扬声器日期方面是否存在延迟或计算成本限制?如果没有,是否有计划开发在线扬声器日益改估系统?

是的,Rev.ai提供流媒体ASR

存在这样的情况:在流结束后可以进行离线日志记录(例如会议记录),但在线日志绝对是理想的。

流媒体ASR绝对增加了一组对日期的约束。并且,随着我们通过添加更多特征,如ASR输出,延迟涉及增加,随着日益提高准确性。因为我们在Rev时爱简单,所以我们显然想要一个快速和快速的产品,我们希望能够以优惠的价格提供。有了此同说,我们强烈认为在线日益改善是下一个边缘,所以我们确实目前正在认真探索它。

问题5:

您认为什么是讲话者日益增长的最大痛点?您的团队会努力建立一个良好的生产版本的扬声器深度化系统吗?

目前,我会说最大的扬声器深度痛点是选择正确的指标以优化.根据我们的经验,当前的指标与客户满意度并不完全相关。

另一个痛点是我们想要提供一个不需要用户输入的简单解决方案.例如,这可能需要找到一个合适的阈值来聚类适用于所有场景的扬声器,或者有一个更智能的算法来适应给定的场景。

最后,我们发现它相当更难满足客户的期望.我的意思是,扬声器日期是人耳的这种简单问题,顾客很难了解为什么很难做好的工作。此时,客户了解ASR是难题(无论如何在某些情况下),因此当您犯错误时,它们更容易耐受。还没有扬声器日益改血并非如此。

问题6:

传统上,扬声器日益增估被认为是语音识别的预处理,但实际上它可能导致Word削减,因此在使用统一分割时不考虑Word边界,因此在使用统一分割时无法考虑Word边界以获得高质量扬声器表示的删除错误。您如何在产品系统中处理此问题?

我们处理此问题的一种方式是不使用VAD(或保守VAD,减少小段的数量)以及我们向ASR提供的分割的选择。对于ASR输出,我们使用攻击性平滑算法,以及DIAR输出,我们使用保守的VAD解决方案进行后处理。所以,基本上,我们认为说话人日记是两个独立的问题:面对ASR和面对客户。

问题7:

最近,除了Der以外的一些指标对社区感兴趣,以评估来自不同观点的日益改复系统,例如词级Der(WDE)。你会分享自己对这一趋势的看法吗?

我们是大粉丝w以及我们在内部呼叫的内容德尔

wd:

  • 作为日益衰减度量,WDE也消除了在测试集中具有准确时间边界的需要。但是,在实践中,我们发现WDE在时域中的DER1和错误分类错误强烈关联。
  • 我们认为,这最好反映了我们组合的ASR和日益增长系统的表现。这与Revvers Ideage的“可编辑性”扭转回到“编辑性”中。WDER提供跨文字的速度,而Der在跨时间提供速率,前者在输出来自正确的成绩单的距离方面更容易理解。
  • WDER的主要缺点必须与ASR WER结合使用,以解释缺失和插入。

Der1:

  • 因为我们根本不介意虚假警报,我们实际上决定不包括它在主要指标中。在内部,我们称之为der1。
    • der1 =(misseddetection + speemerconfusion)/ totalspeechtime

一般Diarization问题

问题8:

众所周知,扬声器日期最具代表性应用领域是历史上的广播媒体,会议和电话对话。您认为还有什么可以被视为现在扬声器日益化技术的影响应用领域?而且,未来可能是潜在的应用领域?

这些域名涵盖了我今天可以想到的大多数应用程序。在Rev,我们在不知道域提前了解各种音频,因此面临着一个问题,我会称之为“野外扬声器日益化”。该场景从单个扬声器播客录音到多扬声器访谈,甚至长期音频/视频录制。在后面的情况下,背景噪音,沉默和自发的言论可以使日益变化非常具有挑战性。

扬声器日期的一个大域是联络中心。在此域中,有两个主要用例 - 代理侧和客户端。分离谁的讲话可以帮助公司对代理商的质量保证,促进客户的更好的客户服务。在客户端,它有助于公司了解为什么客户正在呼叫 - 例如。计费,产品问题或技术问题。本知识可以帮助公司通过更好的信息,减少等待时间,通过偏转呼叫来改善客户的互动。还有其他领域,其中asr为社会贡献,我们不经常考虑。Some examples include driving change in criminal justice reform by analyzing hearing outcomes (e.g. separating judges from defendants) to look for biases in results or web platforms for contentious parents that have to co-parent (e.g. cases in which who said what can be used in court).

至于未来,我会说现在扬声器日益增加的主要问题是它在野外不够准确“。一旦我们为更一般的情况打破了特定的准确性障碍,那么场景就会展开。回想一下,语音识别意味着在IVR中正确地理解“请”或“不,谢谢”。当时,用于演讲的用例非常有限。我认为我们现在正处在日记化的时候。

这些未来类型的应用程序之一将是蓬勃发展的流媒体行业现在。例如,人们正在主持twitch流,许多人一边玩游戏一边聊天。如果在这种非结构化音频数据中寻找结构(不管是实时的还是离线的),可以使用日记记录。

问题9:

你认为在讲话者日记这一领域中最具挑战性的问题是什么?无论是从研究的角度还是实践的角度,或者两者都有。

首先,我想说日记化的下一个前沿是在线/流媒体日复一转(以及在监督下训练这些模特的好方法)。人类非常擅长日记,而且我们每时每刻都在日记。这是研究和行业面临的最大挑战。

还有许多其他挑战是重要的(并且可能是所有相关的):

  • 可解释性:扬声器深度型号的行为难以解释和解释。日记系统应该是可以理解的(比如明明有两个人说话,为什么它只认出一个人?)
    • 这绝对与通用准确性问题有关,但也可能与指标有关。人类观察“简单”的日益衰退错误,因为我们是如此擅长。可以构思更好的度量可以更好地表示更好的度量。
  • 重叠的演讲是在实际应用中引起问题的一个有趣的话题。
  • 自发中断或者非常短的扬声器开关/转弯。非常短的开关通常很难检测基于聚类的方法。
  • Diarization指标: DER和变体依赖于在引用中具有准确的时间戳,即使是强制对齐,这对它们的可靠性也是一个明显的压力。
  • 学习正确的特征:一方面,该模型需要能够避免对频道/声学变化的过度接收,另一方面,它需要能够容忍扬声器内部变化(例如高情绪等)。

问题10:

传统上声学特征是扬声器深度化系统的De-Facto输入功能。此外,考虑了像韵律信息等韵律信息的Supra-semmental的特征,以补充基于声学特征的系统。如本教程所讨论的,ASR输出也有助于扬声器日期。可以考虑哪些其他特征?

因为ASR系统的准确性在过去的几年里有很多改善,所以我会同意使用的ASR输出(和其他衍生特征)是扬声器深度系统中最重要的下一步.这可能意味着包括字边界信息,并且可能分析文本的类型,以了解它是否是对话框等。在此之上,可以考虑:

  • 暂停持续时间
  • 标点符号和POS标记

其他有趣的信息有:

  • 为了视频来源,双重方法将非常有趣(音频和视频功能)
  • 整合一个想法已知的扬声器数据库(如果您在随着时间的推移处理类似的声音)。