谷歌语音识别新挺进:行使序列转导来实现众人语音识别和发言人分类

admin

集成的语音识别和发言人分类体系暗示图,该体系同时推想“谁,在何时,说了什么”

Via  https://ai.googleblog.com/2019/08/joint-speech-recognition-and-speaker.html

吾们认识到,很关键的一点是:RNN-T 架构专门适用于集成声学和语言学线索。RNN-T 模型由三个分别的网络构成:(1)转录网络(或称编码器),将声帧映射到一个湮没外征上。(2)展看网络,在给定先前的现在的标签的情况下,展看下一个现在的标签。(3)级联网络,融相符上述两个网络的输出,并在该时间步生成这组输出标签的概率分布。

传统的发言人分类(speaker diarization,SD)体系有两个步骤。在第一步中,体系将检测声谱中的转折,从而确定在一段对话中,发言人什么时候转折了;在第二步中,体系将识别出整段对话中的各个发言人。这栽基础的众步手段(有关浏览:https://ieeexplore.ieee.org/document/1202280/)几乎已经被行使了 20 众年,而在么长的时间内,钻研者们仅仅在“发言人转折检测”片面升迁了模型性能。

在图形处理单元(GPU)或张量处理单元(TPU)云云的添速器上训练 RNN-T 并不是一件浅易的事,这是由于亏损函数的计算必要运走“前向推导-逆向传播”算法,该过程涉及到一切能够的输入和输出序列的对齐。近来,该题目在一栽对 TPU 友益的“前向-后向”算法中得到晓畅决,它将该题目重新定义为一个矩阵乘法的序列。吾们还行使了TensorFlow 平台中的一个高效的 RNN-T 亏损的实现,这使得模型开发能够敏捷地进走迭代,从而训练了一个专门深的网络。

吾们研发出了一栽浅易的新式模型乐橙AG娱乐,该模型不光完善地融相符了声学和语音线索乐橙AG娱乐,而且将发言人分类和语音识别义务融相符在了联相符个体系中。相较于相通环境下仅仅进走语音识别的体系相比乐橙AG娱乐,这个集成模型并异国隐微降矮语音识别性能。

请仔细,在下图所示的架构中存在一个逆馈循环,其中先前识别出的单词会被行为输入返回给模型,这使得 RNN-T 模型能够引入语言学线索(例如,题目的末了)。

这个集成模型能够直接像一个语音识别模型相通训练。训练行使的参考译文包含发言人所说的单词,以及紧随其后的指定发言人角色的标签。例如,“作业的截止日期是什么时候?”<门生>,“吾期待你们在明天上课之前上交作业”<先生>。当模型按照音频和响答的参考译文样本训练益之后,用户能够输入对话记录,然后得到形势相通的输出效果。吾们的分析表明,RNN-T 体系上的改进会影响到一切类型的偏差率(包括较快的发言者转换,单词边界的切分,在存在语音遮盖的情况下舛讹的发言者对齐,以及较差的音频质量)。此外,相较于传统的体系,RNN-T 体系表现出了相反的性能,以每段对话的平均偏差行为评价指标时,方差有清晰的降矮。

现在,该模型已经成为了吾们理解医疗对话的项现在(https://ai.googleblog.com/2017/11/understanding-medical-conversations.html)中的一个标准模块, ag88环亚官网并且能够在吾们的非医疗语音服务中被普及采用。

这栽手段存在很众不及,窒碍了该周围的发展:

传统体系和 RNN-T 体系舛讹率的对比,由人类标注者进走分类。

传统的发言人分类体系倚赖于人声的声学迥异识别出对话平分别的发言人。按照须眉和女人的音高,仅仅行使浅易的声学模型(例如,同化高斯模型),就能够在一步中相对浅易地将他们区睁开来。然而,想要区分处音高能够相近的发言者,发言者分类体系就必要行使众步手段了。最先,基于检测到的人声特征,行使一个转折检测算法将对话切分成均匀的片段,吾们期待每段仅仅包含一个发言人。接着,行使一个深度学习模型将上述发言人的声音片段映射到一个嵌入向量上。末了,在聚类阶段,会对上述嵌入聚类在分别的簇中,追踪对话中的联相符个发言人。

例如,在一段大夫和患者的对话中,大夫问:“你按期服专一脏病药物了吗?”患回答道:“Yes”。这与大夫逆问患者“Yes?”的意义是有内心区别的。

传统的发言人分类体系在声学域中进走推想,然后将发言人标签遮盖在由自力的 ASR 体系生成的单词上。

然而,传统的发言人分类体系也有一些性能较益的例子,在谷歌此前发布的一篇博文中就介绍了其中之一(博文地址:https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html)。在此做事中,循环神经网络(RNN)的暗藏状态会追踪发言人,克服了聚类阶段的弱点。而本文挑出的模型则采用了不容的手段,乐橙AG娱乐引入了语言学线索。

近年来,随着一栽名为递归神经网络变换器(RNN-T,https://arxiv.org/abs/1211.3711)的新式神经网络模型的发展,吾们现在拥有了一栽正当的架构,它能够克服之前吾们介绍过的发言人分类体系(https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html)的限制性,升迁体系的性能。在谷歌近来发布的论文“Joint Speech Recognition and Speaker Diarization via Sequence Transduction”(论文地址:https://arxiv.org/abs/1907.05337)中,它们挑出了一栽基于 RNN-T 的发言人分类体系,表清新该体系在单词分类偏差率从 20 % 降矮到了 2%(性能升迁了 10 倍),该做事将在 Interspeech 2019 上展现。

(2)聚类阶段请求发言人的数目已知,并且这一阶段对于输入的切实性相等敏感。

传统的发言人分类体系

(3)体系必要在用于估计人声特征的片段大幼和憧憬的模型切实率之间做出艰难的权衡。片段越长,人声特征的质量就越高,由于此时模型拥有更众关于发言人的新闻。这然而,这就带来了将较短的插入语分配给舛讹的发言人的风险。这将产生专门重要的效果,例如,在处理临床医学或金融周围的对话的环境下,吾们必要切实地追踪一定和否定的陈述。

此外,该集成模型还能够展看其它一些标签,这些标签对于生成对读者更添友益的 ASR 译文是必需的。例如,吾们已经能够行使匹配益的训练数据,议决标点符号和大幼写标志,升迁译文质量。相较于吾们之前的模型(单独训练,并行为一个 ASR 的后处理步骤),吾们的输出在标点符号和大幼写上的偏差更幼。

(1)吾们必要将对话切分成仅仅包含以为发言人的语音的片段。否则,按照这些片段生成的嵌入就不及切实地外征发言人的声学特征。然而,实际上,这边用到的转折检测算法并不是完善完善的,会导致分割出的片段能够包含众位发言人的语音。

在切实场景下,发言人分类体系与声学语音识别(ASR)体系会并走化运走,这两个体系的输出将会被结相符,从而为识别出的单词分配标签。

(4)传统的发言人分类体系并异国一套方便的机制,从而行使在很众自然对话中非藏清晰的语言学线索。例如,“你众久服一次药?”在临床对话中最有能够是医护人员说的,而不会是病人说的。相通地,“吾们答该什么时候上交作业?”则最有能够是门生说的,而不是先生说的。语言学的线索也标志着发言人有很高的概率发生了转折(例如,在一个问句之后)。

集成的语音识别和发言人分类体系

作者:王师

普拉多在国内的销量和口碑不用说了,至少在40-70万这个价格区间,几乎每个人想买车的时候,都犹豫过要不要买普拉多,尤其是普拉多2700和普拉多4000,更是成为很多人的第一选择。就我个人而言,如果不差钱,还是一步到位选择普拉多4000吧,最近有小伙就是买完普拉多2700之后,觉得动力不足,有些后悔了。但是这个时候应该怎么办?想改装,又怕伤车,如果不改装,用他的话说,出去玩都没人带他。今天咱们就聊聊,觉得普拉多2700动力不足,应该怎么办?

美股三大股指涨幅扩大,截至发稿,道指涨近400点,涨超1.5%,标普500指数上涨1.49%,纳指涨近150点,涨超1.8%。

原标题:LOL小智首位女徒弟火了,歌美声甜不露脸,网友:又一个乔碧萝?

日前,我们行车视线从相关渠道获悉,东风雷诺科雷缤将于2019年9月开幕的成都车展正式亮相。新车整体的造型风格走的是年轻化的设计,大尺寸的品牌LOGO进一步突出品牌的辨识度。值得一提的是,新车将提供11中外观车身颜色供消费者选择。

,,

Powered by 乐橙亚洲亚洲电子 @2018 RSS地图 html地图

2010-2019 版权所有