本篇文章10153字,读完约25分钟
在国内,关于智能语音技术,确实绕不过一个身体。 它是现任百度语音首席设计师贾磊,他是智能语音界重要的ai大牛,年加入百度,组建百度语音团队,开发了百度语音识别和语音合成等一系列百度专有知识产权的语音核心技术。 年短创业后,又回到百度,研发了小度智能扬声器远场语音交互系统、小度车载语音交互、百度鸿鹄语音芯片、百度智能语音呼叫中心系统等一系列百度语音类产品,将相关技术推广到中国社会,他还于年获得了全国劳模称号(
作为ai落地的重要组成部分之一,智能语音对话技术这条路是如何迅速发展并逐渐成熟的呢? 在魔法年,智能语音技术的最新快速发展是什么? 随着5g、ai计算力等技术的高速发展,未来智能语音技术还会向那些方向进行突破和创新吗? 本文分上下,结合贾磊的工作经验,从个人和技术方面详细谈谈智能语音技术的过去、现在和未来,一定能给你带来很多成果。 另外,嘉磊老师也将于2021年1月8日至9日在qcon北京站带来智能语音越来越多精彩的分享,欢迎大家现场基础,共同探讨、交流。
(上)
作为最先关注智能语音的行业大咖之一,嘉磊是以什么样的契机选择了智能语音之路的呢? 他怎么理解语音相互识别的本源? 短暂的创业经历又给他带来了那些收获? 接下来,本文将深入认识嘉磊,全面了解大牛成长记。
开启有趣的驱动、近20年的智能语音技术追求之旅
嘉磊选择声音是有趣的驱动。 嘉磊硕士毕业后,进入中科院自动化所获得博士学位。 他最初的研发方向是图像解决,广泛涉猎了模式识别各学科各个方面的知识,也综合比较了图像、语音、nlp等学科的学科差异等。 那时声音技术逐渐产生了浓厚的趣味,我很好奇人是如何发出声音,感知声音,同时理解声音复制的。 当时ibm的viavoice软件也风靡全球,人们依靠声音实现人机交互的梦想的实现就摆在眼前,声音产业化应用的明天是美好的。 那时,碰巧嘉磊中科院自动化所的首任领导因为员工调动问题,允许他们更换专家,最终他根据个人有趣的发展,申请从图像解决方向转向语音识别的技术方向。 从那时起,贾磊开始了他近20年的追求语音技术之旅。
一时的创业,揭示了伙伴之间“可靠”的关系
贾磊年有短暂的创业经历,谈到创业给他带来的最大成果,贾磊坦言创业让他明白创业在创业合伙人之间需要的是“靠谱”,而不是简单的“靠谱”。 大家信任在一起了,所以“信任”只是彼此缘分的开始。 企业家之间需要维持的是可靠的关系,这种关系需要长时间存在,是一个过程。 在创业过程中,总是舍命,人力物力财力有限,大家各需要120%的投入来处理眼前的问题。 大家需要背对对方,无条件信任对方。 大家背靠背战斗,背靠背一起并肩。 每个人都拼命守护着自己前方的战场,把后背托付给创业的伙伴和兄弟。 一个人输了,其实是大家都输了,谁的责任也没有意义了。 创业使人更加认识到团队合作的价值和团队的作用。 再加上创业合伙人之间的关系理解,创业对贾磊最大的冲击就是对资本的恐惧。 以前在大企业打工,从来没有意识到资本对技术快速发展的可持续性如此重要。 经过创业,他深刻明白了技术要进步,不仅要靠技术人员的个人努力,更重要的是技术人员所属平台的持续长时间投入。 这些投入不仅是技术人员工资、实验和各种研发要求的投入,更具体地说是技术应用场景的投入,后者的投入更是巨大。 这个创业后,又回到百度,贾磊更是感谢,因为百度长时间没有回报的投资,才能让语音技术这个草,在百度内成长为天上的大树。 嘉磊个人也从语音技术一般的专业技术人员,成为了语音领域的技术领头羊。
如何理解语音对话和了解本源?
创业回归百度后,贾磊一直专注于语音算法技术创新,兼顾了算法创新和产业发展。 可能是认识到资本对技术的推动作用,嘉磊要求团队成员要有价格意识和盈利意识(当然,技术团队的收益是概念性的,并不都是绝对实际的营业流水)。 一切都必须具备企业整体的推进能力。 不是单体的算法创新。 这也是他们投入百度鸿鹄芯片的背景。 这些乍一看似乎与人类的认识无关,但实际上在将技术应用于实际应用过程中,贾磊越来越发现,人类的认识过程,不是简单的学科划分过程。 不是学习声音,而是只处理声音的识别。 很多情况下,识别是视觉、听觉、理解一体化的过程,例如人人理解交流中的肢体语言,对人类的意图理解有着重要的作用,例如语义理解过程和语音识别过程,在具体的产业应用中有着密切的关系。 虽然学科划分有边界,但人类的认识本源可能是一体的。 处理语音对话问题,不仅仅从语音技术放在产业应用上,而是语音、图像、nlp一体化的计划和处理问题。
时间就像海绵水一样,为了平衡工作和家庭而努力节流。
贾磊年获得全国劳动模范称号(互联网行业第一个全国劳动模范),被认为从业者强度非常大,关于从业者和家庭的平衡,互联网从业者的朋友们牺牲了很多自己生活的休息时间 “我个人觉得,我和从事网络领域的朋友们一样,以身作则,很少与家庭生活切实相关。 和孩子相处的时间也很少,工作忙起来,或者一大早就出来,或者晚上很晚才回去,回去之后孩子也早早睡了。 早晚,两头都见不到孩子,很想她。 每次看到孩子朝我笑的小脸,我都很自责。 如果不忙的话,我会尽量早上早起。 和她一起吃早饭,送她去学校。 我告诉你在去学校的路上,看红绿灯,走人行横道,或者避开绿色时右转的车辆。 之后,我赶紧开车去企业,正好一大早就可以开始工作了。 我觉得时间就像海绵里的水。 用力按下的话,总是能挤出来。 不要错过和孩子一起长大的时间。 孩子们迅速成长,不再需要我们的陪伴。 ”。
(下)
上篇和贾磊老师谈了智能语音技术的实情。 下篇从技术方面和你谈谈智能语音的过去、现在和未来。 干货满了。
智能语音领域快速发展的历史解析
IBM欢跃时代的语音技术
语音领域在2000年左右迎来了最初的产业热潮,也就是ibm的viavoice语音输入软件。 当时,人们把这个软件安装在电脑设备上,可以在电脑前阅读报纸和信息复印件,输入简单的日常用语,识别率也不错。 于是工业界掀起了大规模连续语音识别产业化应用的热潮。 当时,viavoice时代的语音技术是以hmm建模和混合高斯系统( gmm )为声学建模核心的建模技术,语言模型使用基于ngram的统计语言模型。 由于pc上的内存限制,语言模型的体积也只有几十米。 另外,由于当时可获得的复印材料也有限,语言模型可涵盖的复印范围很小,当时集中在情报和日常用语行业。 由于hmm系统和混合高斯系统的建模能力有限,此时的连续语音声学训练语料库也只有几百个小时。 此时的语音识别系统对说话方式和语调要求也很严格,说话方式必须是朗读方式,声调也必须是标准普通话,否则识别率会迅速下降。 很快发现,viavoice难以满足用pc复制语音的产业需求。 渐渐地,viavoice的产业热情逐渐冷却。
以前的windows上的语音软件
2003年贾磊毕业时,基本上产业对人们语音输入的期望已经很低了,各大企业都降低了语音技术的投入和期望。 贾磊刚毕业不久就迎来了语音技术的第一个低潮期,当时很多语音专业的学生都改变了方向,很多人做语音也选择了留校而不是工业期。 当时国内大型企业常见的语音诉求是开发手机上的数字、人名拨号系统、车载语音导航等嵌入式产品,技术也集中在设备端的单通道语音识别和语音合成上。 从技术上看,这些应用程序都是嵌入式孤立词语音识别系统,具有只能识别特定的指令语和句法的优点。 此后几年,除了理发嵌入式的应用外,语音技术在工业界的发展更是陈可新,语音产业持续低迷。
语音技术的产业应用将迎来第二波高潮
痛苦的日子总算不长。 2007年,微软公司收购了语音识别技术公司tellme networks,开始组建自己的语音团队。 语音技术的工业应用再次回到了大企业的关注点。 谷歌2008年在美国推出英语语音搜索服务voice search,应用于安卓、诺基亚s60、黑莓、iphone等多个系列手机。 随后,谷歌于2009年发布了中文语音搜索,语音的产业应用迎来了新的高潮。 这股热潮的核心优势是基于网络诉求和实现,此时模型处于云端,因此可以增大体积。 例如语言模型位于云中,因此语言模型的体积可以达到上g。 这在2000年左右的语音系统中是不可能的( 2000年比较好的pc电脑内存为256米,它的语言模型在终端,只有几十米)。 。 语言模型位于云端后,热词新语的新闻更新也更及时,较大的模型体积意味着所支持的语言行业更广泛。 另外,从技术上讲,音响模型仍然以hmm框架gmm建模为主体,但已经能够使用更大的训练资料。 数千至数万小时的声学训练语料库开始进入工业界。 这是从2000年开始的近10年间,语音识别的核心算法技术仍然是hmm、gmm、ngram的统计语言模型,但随着网络技术的引入,云体积更大的声学模型和语言模型可以使用,训练这些模型的语料库
深度学习首次应用语音识别的系统框图
年,微软邓力和俞栋两位学者合作,将深度学习技术应用于工业级大词汇量连续语音识别实验,取得了相对于以前流传下来的基线系统的23%的显着提高,这标志着语音识别技术迎来了第一次深刻的学习革命。 深度学习应用于语音识别,最初的整体建模框架仍然是hmm,但声学输出分布gmm模型被深度学习dnn模型所取代。 这时的声音识别系统是hmm和dnn混合存在的声音识别系统。 随着深度学习技术在语音技术中的应用不断深入,从dnn到cnn、cnn+lstm,语音识别系统的字错误率每年以10%- 15%的相对错误率下降。 之后,随着ctc技术的引入,更大粒度的建模单元( wordpiece模型,音节和字)被更多地使用,应用于语音识别的几十年的hmm框架被淘汰了。
语音识别技术进入了端到端的时代
从年到年,观察力建模技术的研究使语音识别技术进入了端到端的时代。 截止到2019年,attention (观察力)技术已广泛应用于nlp、图像等商业产品行业。 但是,在语音识别行业,从2009年开始实验室内广泛应用基于attention的声学建模技术,并取得了广泛的成功。 国际上普遍用于语音识别的观察力模型有谷歌基于lstm的las ( LAS )模型两种。 另一个是基于自我注意的转换器模型。 这两种观察力模型在实验室的各种实验中明显提高了语音识别系统的识别率,实现了深度学习模型、语音语言一体化的端到端建模。 观察力模型在实验室范围内取得了很大的成功,但在应用于工业界实际的在线语音对话产品方面,还存在着一系列的技术障碍。 中心课题是在线下识别系统需要流解码,而观察力模型需要带着整个语音进行解码,从而引起顾客无法接受的识别延迟问题。 因此,截至2019年初,观察力模型在工业在线语音对话中还没有利用观察力模型进行语音识别的成功案例。 2019年1月,百度首次推出基于流媒体可靠性建模技术的语音输入方式产品,首次提出了流媒体多级屏蔽的观察力模型( smlta )。 这是国际观察力模型在线语音识别行业大规模工业应用的第一个成功案例。 此后,流动观察力模型在学术界也得到广泛的研究。 最近,在语音识别应用中,正在进行流式传输等逐渐集中于流式传输的自我证明建模。 人类从未停止过对提高语音识别核心技术的脚步。
基于观察力机制的语音识别端到端建模通用框架
- -年来,智能扬声器产业在中国乃至世界范围内得到了巨大的快速发展和普及。 在智能扬声器的采用场景中,由于目标声源距离拾音器较远,目标信号衰减严重,环境噪声干扰信号多,最终导致信噪比低,语音识别性能差。 为了提高远程语音识别精度,通常采用麦克风阵列作为拾音器,利用数字信号解决行业多通道语音信号解决技术,增强目标信号,最终生成明确的信号,对后面的语音识别系统进行语音识别。 此时,数字解决信号系统和语音识别系统相互级联是主流的远程语音识别技术,该级联技术也成为第一代智能扬声器远程语音对话技术的主流技术。 此后,语音学界开始了一系列的技术创新,从数字信号解决到语音识别一体化的端到端建模成为热点。 这是一种创新的远程语音对话技术,深度学习模式贯穿了数字信号解决和语音识别两个行业。 在国际上,谷歌打算首先处理这个问题。 谷歌处理方案中使用的深度学习模型结构来自诸如过滤和求和等数字信号解决思想,模型底部的结构设计模拟了数字信号解决的多路麦克风解决过程。 在此基础上,模型是以前流传的采用近场语音识别的深度学习模型。 该模型直接确立了从远程语音复用信号到识别复制的端到端发展。 百度团队对比了远程语音识别的特殊诉求,提出了自己的多种基于cnn的远程端到端建模方案,并大规模应用于工业产品。
语音技术从迄今为止的云竞争逐渐扩展到终端芯片
年左右ai芯片的迅速发展,也给语音交互领域带来了巨大的推动力。 在ai技术迅速普及的今天,计算力成为推动ai领域快速发展的基本核心力量。 年微软的科学家可以将深度学习应用于语音识别工业界,除了科学家的辛勤工作外,更重要的背后推手是gpu。 如果没有gpu的计算能力支持,一个月不可能完成数千小时的dnn模型训练。 年以来,英伟达的股价已经从十几美元暴涨了几十倍。 这充分说明了ai计算力的价值,在语音识别领域,远程识别的兴起推动了ai语音芯片的迅速发展。 一个芯片完成终端信号解决和唤醒已成为明显的市场诉求。 在智能音箱行业,这款ai语音芯片在大幅降低音箱价格的同时,还提供了更高精度的唤醒和识别能力。 在汽车导航行业,ai语音芯片可以保证主芯片的负载安全,提高驾驶安全。 各大语音企业开始推出自己的语音芯片,语音技术从此前的云竞争开始向终端芯片延伸。
百度语音技术成果盘点
智能语音交互系统是人工智能产业链的重要环节,面对未来智能语音产业链的新诉求,百度开发了适合新一代大规模工业化部署的新型端到端语音交互系统,实现语音交互全链路的协同解决、软硬件一体化优化、信号语音 实现了语音语义的一体化建模、语音图像的多模态融合、全深度学习的语音识别、语音唤醒和千人个性化语音合成等,其中重大的技术创新包括:
1. attention (观察力)技术已经广泛应用于nlp、图像等商业产品行业,但在语音识别行业,从2007年开始实验室内广泛应用基于attention的声学建模技术,并取得了广泛的成功,但在语音识别中应用最为广泛。 其中心原因是语音识别的流媒体服务要求:语音必须将分片传输到服务器,解码过程也必须分片解码,客户端的语音刚落下,语音识别结果就完成了。 此时,人类的发声过程、语音瓷砖的入驻过程、语音识别的解码过程三者都是并行的。 这样,顾客的声音下降后,就会得到识别结果,顾客的绝对等待时间最短,顾客体验最好。 以往,观察力建模技术必须在获得全局语音后开始观察力特征提取,然后开始解码,但解码过程的时间与语音识别的解码过程不同步,客户端的等待时间变长,语音交互的实时性较差
smlta :百度流媒体多级遮挡观察力模型( 2019年1月发布)
2019年1月,百度语音团队提出了流媒体多级切割观察力模型smlta。 采用ctc模型和smlta模型相结合的方法,利用ctc的peak切出连续声音流,制成切出的声音流的观察力模型。 这是世界上首次出现基于观察能力技术的在线语音识别服务大规模在线化。 该技术明显提高了在线语音对话的语音识别精度,实现了语音语言的一体化建模,奠定了云语音识别技术全面端芯片化的基础。 年,smlta技术全面应用于百度语音识别全线产品:语音输入法、语音检索、地图语音对话、智能扬声器、汽车导航、智能呼叫中心、会议在线翻译等产品,可以看到smlta技术语音对话性能的持续提高。
2 .近年来,随着5g万物互联概念的普及,中国社会对智能设备的远程语音交互诉求日益增加。 远场环境下,由于目标声源远离拾音器,目标信号衰减严重,环境噪声干扰信号多,最终信噪比低,语音识别性能差。 为了提高远程语音识别精度,通常采用麦克风阵列作为拾音器,利用数字信号解决行业多通道语音信号解决技术,增强目标信号,最终生成明确的信号,对后面的语音识别系统进行语音识别。 此时,数字解决信号系统和语音识别系统是级联方式,数字信号解决系统以信号的清晰度为优化目标,语音识别声学建模以云识别率为建模目标,两个系统的优化目标不统一,错误也被级联放大,最终 在国际上,谷歌试图使用端到端建模技术来处理这一问题,并拥有一套处理远程麦克风阵列信号解决和语音识别声学建模问题的模型。 谷歌处理方案中使用的深度学习模型结构借鉴了数字信号解决行业的滤波和求和等数字信号解决思想,模型结构设计了经典的数字信号解决过程。 这个参考更容易收敛基于深度学习的端到端建模,但后期我们通过实验表明,这个参考严重影响了深度学习技术在这个方向的发挥和扩展,限制了深度学习模式模型结构的演化,制约了技术的创新和快速发展。
基于cnn的语音增强与语音识别一体化的端到端建模
百度语音团队开发了一种完全不依赖任何预假设信号、语音一体化的适合远程语音交互的深度学习建模技术。 该深度学习模型以多个cnn为核心,利用多个cnn互联网挖掘生理信号的本质特征优势,使用多个cnn、多个全连接层、cnn等多层互联网,直接多尺度多级新闻提取原始多通道语音信号 保存原特征相位新闻,实现前端声源定位、波束形成、扩展特征提取。 该模型的底部cnn抽象出的特征直接传输到百度独有的端到端流多级切割观察力模型,实现了从原始多麦克风信号到识别对象拷贝的端到端一体化建模。 网络的整体优化标准完全依赖于语音识别互联网的优化标准,并以提高识别率为目标进行了模型参数的调整。 目前,这种做法已整合到百度新发布的百度鸿鹄芯片上。
百度鸿鹄芯片结构图
年,百度在智能扬声器、汽车导航、智能电视控制方面,让百度鸿鹄语音芯片落地。 开发了以远程语音交互为中心的鸿雁芯片处理解决方案,用一个芯片处理远程阵列信号解决和语音唤醒问题,构建了云核心一体化的语音交互处理解决方案。 百度鸿鹄语音芯片设计此前改变了芯片设计的做法,公布了ai算法——软件定义芯片的新设计思路。 百度鸿鹄芯片使用双核hifi4架构的定制指令集,2m以上超大内存、台湾积体电路制造40nm工艺,该硬件规格为100mw左右的平均工作功耗,支持远程语音交互核心的阵列信号解决和语音唤醒能力, 然后,百度鸿鹄芯片为远程语音交互算法定制芯片架构,根据ai算法要求的核内存储器结构设计、分层存储加载策略、ai算法调整后的cache设计和灵活的双核通信机制, 百度鸿鹄芯片是中国领域唯一可以搭载所有远程阵列信号解决和智能扬声器唤醒技术的语音芯片,完成了行业首个支持电视熄灭的ai芯片处理方案,实现了工业产品的落地。
在百度鸿鹄芯片之后,贾磊团队还利用语音交互的许多复杂算法、逻辑与数据模型相结合的语音交互技术,利用百度全新开发的端到端语音建模技术,抽象为许多简单深度的学习计算过程,几乎无损于语音识别过程 基于以上思路的百度鸿鹄芯片二代也在稳步研发中,一个芯片处理远程语音识别与合成问题已经不远了。 5g时代的云定义了语音交互功能,终端执行语音交互功能,云一体的语音交互很快就会成为现实。
百度智能语音全景图
在语音技术产业化过程中,嘉磊认为核心关键因素是技术创新把握产业诉求,而不是闭门造车。 例如,百度语音语言一体化的流式多级截断的观察力建模技术( smlta ),是在线语音识别技术所需的重要要求——对比处理观察力( attention )建模技术无法进行流式识别的问题。 比如百度开发鸿鹄芯片,核心就是处理一个芯片的集成远场信号解决和远场唤醒,提高智能扬声器的远场相互体验,降低智能扬声器的价格。 “文以载道”,技术提升的主要目标是提高产品体验,而不是纯粹的学术创新。 在管理上,必须集中特色兵力优先处理技术工业应用时的痛点问题,要根据客户的感知体验提高迭代技术,而不仅仅是技术指标的提高。
端到端语音交互的技术难题和难点
贾磊认为最大的挑战是生成跨学科的端到端仿真数据和掌握大规模工业培训的深度学习培训平台。 端到端建模目前倾向于跨学科端到端建模,这时候需要首先处理跨学科数据模拟的问题。 每个学科都有学科假设的学科边界。 近几十年的研究成果是在学科边界的假设范围内进行的,积累的各种训练数据也基于学科边界的假设。 一旦学科边界被打破,各学科的假设就不成立,训练数据往往需要重新积累。 因此,一般需要用模拟的方法生成跨学科的端到端训练数据。 如何模拟跨学科场景数据是端到端建模的第一个难题。 端到端建模的第二个课题是如何应对数据倍增时的深度学习训练,这些问题对一般的语音团队来说是一个很大的课题。 例如,在进行信号与声音一体化的建模时,将远程场信号的声场模拟叠加在近场声音识别建模的训练数据量上。 于是,模拟的数据量倍增。 考虑到大规模工业训练的要求,上述模拟数据的生成一般需要在gpu上进行。 另外,数据倍增后,用gpu进行高速有效的训练。 在这里,深入的学习训练平台的把握是很重要的。 否则,跨学科端到端建模时的训练数据模拟和训练速度优化中的一个问题就是压扁的端到端建模的最后一根稻草。
处理这些问题的核心是深入理解深度学习算法技术和工程技术,全面掌握深度框架。 具有建立深度学习框架内核的能力,以处理gpu上的加速训练、内存优化问题和算法调整问题。 如果只是普遍了解国外开源框架的算法技术,跑脚本训练模型,在遇到上述训练数据的模拟和训练速度的优化时,无法着手,最终是跨学科的端到端
ai的快速发展是否进入瓶颈期? 怎么ai落地很难?
贾磊认为,人工智能近10年的快速发展随着gpu计算力、数据增长和深度学习算法创新的快速发展而迅速发展。 虽然目前训练数据的增长和深度学习算法的创新速度确实很慢,但在ai计算力这个维度上,还有很大的增长潜力。 无论是云的gpu服务器还是终端的ai芯片,都有很大的增长空之间。 年,openai的研究者发表分解报告称,从年到年,最大规模的人工智能训练采用的计算力增加了30万倍以上,3.5个月翻了一番,远远超过了摩尔定律的速度。 在今后5年内,gpu的计算能力将是cpu的计算能力的1000倍。 这些都对语音的相互作用产生巨大的推动力。 例如,端侧ai芯片的迅速发展,很快使端侧芯片具有与当前云服务相同的语音交互能力,在一点的情况下,例如汽车智能座舱等行业,语音交互的主体都是端上芯片不需要网络而独立完成,在汽车行驶中的
gpu计算能力的增长趋势图
贾磊认为,智能语音对话技术落地是ai落地的重要组成部分,破局的关键在于从简单识别和合成能力的提高,更加场景化的焦点迅速发展,更加综合迅速发展。 我们前面提到的ai能力的提高,使得语音识别技术、语音合成技术等单体技术的学科得到了迅速的发展。 但是,整合语音、视觉、nlp、知识图谱等ai的综合能力,在特定场景下的ai体验打磨,使得ai技术“跃入昔日王谢堂前燕、寻常百姓家”,成为以语音交互为代表的ai能力破局的关键。 语音交互的迅速发展不仅仅是从语音这个维度的迅速发展,在具体场景中,它是综合了视觉、语义、对话、通信等技术的综合技术。 在这个快速发展的过程中,场景化数据的积累和顾客反馈的收集是成败的关键。 贾磊认为,将特定个体与特定场景进行比较,充分打磨,语音交互的算法能力可以满足特定的需求。 “打磨”的过程需要更清楚地了解客户的场景,并反馈个性化的场景化数据。 未来语音交互的成熟,一定会伴随着个性化和场景化的焦点而实现。
谈新型冠状病毒大爆发对ai领域的影响
贾磊认为,像新型冠状病毒大爆发这样的事,确实对人类社会的生产和生活产生了巨大的影响。 新型冠状病毒大爆发将非接触生产和生活作为社会生活的必要组织部分。 用于非接触生产和生活服务的一点点语音对话技术也在持续快速发展。 例如,音视频通信技术在疫情时代取得了巨大的快速发展,随着音视频通信的在线翻译诉求将继续增加。 在线会议副本的实时识别和翻译系统、音视频通信副本的分解和挖掘等也发展迅速。 这些都对语音技术的飞速发展提出了更高的诉求。 整个社会应对疫情,大多依靠科技手段,语音技术在这个过程中也起着很大的作用。 例如,语音自动呼叫业务在执行人员状态和信息表达紧急新闻中起着不可缺少的作用。
智能语音未来的快速趋势展望
在谈到智能语音未来的快速发展时,贾磊认为基于ai语音芯片的端语音交互、多模态语音交互和个性化语音交互是他个人比较喜欢的语音交互的快速发展方向 以上三个行业是他认为有前途的语音技术的快速发展方向。 百度语音团队迅速发展端侧ai语音芯片,端侧执行语音对话,云定义语音对话,沿着视觉语音一体化和语音语义一体化的快速发展方向快速发展多模态对话技术。 对比语音对话的环境噪声和个人口音的差异,迅速发展个性化语音识别、个性化语音合成和情感语音合成等个性化相关语音对话技术,不仅使语音技术可靠,还具备亲情和温暖。