本篇文章3351字,读完约8分钟

最近,语音通信行业国际会议interspeech发表的论文接收结果,与往年相比,今年的投稿量激增了50%,竞争日趋激烈! 平安科技联邦学习小组凭借领域的技术力量,专心研究,取得更好的成绩,入选5篇论文,其科研实力得到世界众多专业评委的一致认可,全面展示了平安科技在ai行业的技术基础和创新实力。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

一年一度的全球语音大会interspeech是语音科技行业的国际学术会议。 会议期间,聚集了来自全球学术界和产业界的研究者,共同交流和探讨了语音行业的新技术,涵盖了语音合成、语音识别、语音增强等多个细分行业。 会议展示的研究成果代表了语音相关行业最高的研究水平和未来的快速发展趋势。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

虽然此次interspeech大会的论文入选门槛较高,竞争非常激烈,但平安科技联邦学习小组仍处于“金融+生态”、“金融+科技”战术的引领下,认真进取、斩获成功,大会成功的论文为科学防疫、语音合成、语音解决。

论文1

实时机器人-基本串行系统集成评估- 19信息

《基于机器人新冠肺炎的风险判定支持系统》

关键词: covid-19; 智能防疫; 基于智能新冠的肺炎检测

图1 covid-19智能检测系统的流程图

从2005年开始,世界各地相继发生由新冠引起的肺炎( covid-19 )的流行。 但是,中国在短时间内成功控制了疫情的传播,为新冠肺炎的防控提出了教科书式的答复。 这与我国严格的疫情防控工作密不可分。 在公共场合,采用手持式测温枪和红外体温测量仪可以比较有效地监测密集人群的体温异常情况,第一时间发现疑似患者,减少聚集感染的可能性。 在疫情防治阶段,有秩序地区分不同症状的患者,根据病理特点合理分配医疗资源是很重要的。 这一措施一方面减少了群体在医院等高危地区的交叉感染,另一方面避免了医疗资源的挤兑。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

为了更好地防治新冠肺炎疫情,平安科技根据大量咳嗽病理资料,以自主开发的奥卡姆平台为基础,采用前沿few-shot learning和观察力相似度技术开发了咳嗽新冠肺炎智能诊断系统,平安科技爱德华机 该系统根据采用者的咳嗽音进行智能诊断,目前帮助诊断新冠引起的肺炎、急性支气管炎、慢性咽炎、百日咳、发烧咳嗽等多种疾病,同时根据采用者所在的gps定位和个体情况生成专用的电子病历和疫情地图。 电子病历和疫情地图包括数据解读和防疫建议。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

论文2

prosodylearningmechanismforspeechsynthesissystemwithouttextlengthlimit

"新的任意长语音合成系统韵律学习机制. "

关键词:语音合成; 韵律建模; 自我观察力模型

最近的神经语音合成系统集中于韵律的控制来提高合成语音的质量,但很少考虑韵律的多变性以及韵律与意义的关联性。

图2韵律学习机制下的模型训练图

平安科技联邦学习小组提出了一种基于tts系统的韵律学习机制,从声谱特征中提取语音韵律新闻,将韵律新闻和音素序列结合重构原始声谱特征。 另外,为了改善韵律预测效果,本文通过预训练语言模型( bert )引入了文案的语义特征。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

另外,平安科技提出了一种新的局部自观察互联网结构( local attention ),以消除输入拷贝长度的限制,序列的相对位置新闻通过相对位置矩阵建模,不需要位置代码。 通过英语和普通话的合成实验表明所提出的模型获得了更满意的韵律语音 特别是在普通话合成方面,该模型在mos上领先基准模型0.08,同时合成语音的整体自然性得到了显著改善,同时通过保险呼叫服务的生产效果得到了验证。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

论文3

ml net:anadaptivemultiplereceptive -现场数据保护网络资源保护技术

“语音信号检测的自适应观察力神经互联网”

关键字:声音端点检测; 适应; 多感觉域; 观察力互联网

3具有适应性的多感觉野观察力模块

语音端点检测是语音解决的重要部分。 准确有效的语音端点检测不仅可以减少语音信号解决的计算量,提高系统的实时性,还可以提高语音系统的鲁棒性和后续语音系统的准确性。 为了提高语音端点检测的精度,一般在设计互联网时会人为设定固定的上下文新闻进行识别或检测。 但是,在实际应用中,特别是在高噪声环境中,固定的上下文新闻不能比较有效地应对各种复杂的应用环境。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

由于只有固定的上下文新闻可以用于处理现有的vad模型,平安科技为了自适应地选择最适合完成vad任务的上下文新闻,设计了多感官野观察力互联网mlnet。 mlnet首先利用门控映射手段将不同感受野的语音特征新闻映射到同样大小的二维特征上,再利用渠道观察力机制选择最佳的上下文特征新闻。 然后,利用bilstm进行特征序列建模,最后利用全连接层互联网输出判别结果。 基于以上模型设计,用aurora4英语数据集和thchs30中文数据集进行了实验,相对于其他baseline模型,mlnet模型取得了较好的实验结果。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

论文4

large-scaletransferlearningforlow -资源科学基础标准

"基于大规模迁移学习的低资源语音理解. "

关键词:口语理解;跨语言迁移学习;多任务学习; 模型融合; 低资源任务

端到端的理解非常多、复杂,是难以达到理想效果的任务,由于训练数据的限制和模型结构的繁多,容易引起过度拟合的问题。 为了应对这些问题,平安科技提出了基于观察力机制的端到端语言理解模型,同时提出了三种编码器强化策略,以减少对模型目标数据的诉求,提高模型的性能。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

图4基本观察力机构的

端到端语言理解模型和各种增强的策略结构

第一个策略依赖于迁移学习方法,首先使用大量的asr任务数据训练更好的转换器模型,然后使用训练过的编码器直接迁移到slu任务,使用口语理解的数据进行slu模型的训练。 第二个策略依赖于多任务结构,在训练中训练asr和slu任务,asr任务作为辅助手段在一定程度上提高slu模型内编码器的性能。 第三个策略是将bert模型并行融合到解码器结构中,并基于该结构训练多任务模型,通过优化asr模型的性能间接优化slu模型的性能。 此外,为了最大限度地提高slu性能,还测试验证了三种策略的不同组合模式,最终在fluentai数据集上的验证中,语言间的预训练编码器和多任务策略分别为4.52%和3.89%

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

论文5

evolutionaryalgorithmenhancedneuralarchitecturesearchfortext-independentspeakerverification

"基于进化算法增强的神经网络检索算法的副本无关声纹识别. "

关键词:声纹验证; 神经模式检索; 进化算法; 深层神经网络

图5自主设计的自动向量机模型原型图

声纹验证是一种新型的非接触式认证技术,主流的声纹验证模型都是基于神经网络设计的,但这些神经网络的设计是通过经验和试错得到的。 为了实现声纹识别模型的自动化设计,平安科技采用神经结构搜索方法实现了声纹识别模型的全自动化设计。 为了进一步提高声纹识别模型的精度,平安科技采用文明进化算法搜索策略,发现了更好的声纹识别模型。 实验说明,平安科技提出的方法相对于lstm-ge2e和x-vector模型可以降低36%-86%等错误率。

“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

平安科技联邦学习技术小组由平安集团首席科学家肖京博士指导,平安科技副总工程师王健宗博士率领,汇聚了国内外大学毕业的硕博人才。 长期以来,平安科技在ai新兴技术行业不深耕,稳扎稳打,遥遥无期。 除了在interspeech取得了良好的成绩外,还在国际音响、声音、信号解决高层会议( icassp )上取得了优异的成绩, 共计3篇论文被选为会议,分别是《AbobustspeakerclusteringmethodBasedondiscretetiedvariationalautoencoder》、 “图形到序列模型自然纹理”和“对齐文本:高效前馈文本” 这些与时俱进的研究成果,是一个又一个重大的技术创新和突破,并不都代表着国际先进水平。 平安科技作为人工智能行业的前沿探险家,更先进、更科学的技术推动着生态的快速发展,赋予各行各业能源,致力于创造更大的价值。

来源:天津新闻信息网

标题:“平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录

地址:http://www.tcsdqw.cn/tjxw/23422.html