原标题:拥有高质量的人机交互体验,离不开『定制化』语音合成

原标题:腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech
2018

文 | 王志

在人机交互中,语音交互已经成为必不可少的交互形式。自然、清晰、流畅的语音是交互体验中重要的一个环节,这就离不开语音合成技术。

雷锋网AI科技评论按:Interspeech
会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI
Lab共有8篇论文入选,居国内企业前列。这些论文有哪些值得一提的亮点?一起看看这篇由腾讯
AI Lab供稿的总结文章。 另外,以上事件在雷锋网旗下学术频道 AI
科技评论数据库产品「AI 影响因子」中有相应加分。

来源 | 智能相对论(aixdlun)

极限元的语音合成技术采用国际先进的数据驱动技术,利用精心设计的语音语料库进行声学模型和文本处理模型的训练,得到的模型深度挖掘了语音语言特性,合成的语音清晰、自然、亲切、具有高表现力,媲美真人发声。

9 月 2 到 6 日,Interspeech 会议在印度海得拉巴举办,腾讯 AI Lab
首次参加,有 8
篇论文入选,位居国内企业前列。该年度会议由国际语音通信协会
ISCA(International Speech Communication
Association)组织,是全球最大的综合性语音信号处理领域的科技盛会。

如果有一天,你可以将你的声音通过人工智能技术“克隆”出来,而且你还能和“你”进行各种对话,你是否愿意尝试?

而随着人机交互市场需求的不断变化,定制化语音合成成为发展趋势。以人机交互中家庭生活场景为例,智能音箱算是一个典型应用,市场上的智能音箱同质化严重,销售情况并不乐观,抓住用户痛点,调动用户使用频次,或许也是提高销售的一种有效手段。试想,拥有同样功能的智能音箱,如果声音是嗲气的小姐姐,或者是呆萌可爱的童声,又或者是喜欢的偶像声音,无论是哪一种,这样真实丰满的人设声音,是不是更容易打动用户,从而调动用户的使用频次。

腾讯 AI Lab
也在业界分享语音方面的研究成果,今年已在多个国际顶级会议和期刊上发表了系列研究成果,涵盖从语音前端处理到后端识别及合成等整个技术流程。比如今年
4 月举办的 IEEE 声学、语音与信号处理国际会议(ICASSP 2018),是由 IEEE
主办、全球最大、最全面的信号处理及其应用方面的顶级学术会议,腾讯 AI Lab
也入选论文 4
篇,介绍了其在多说话人语音识别、神经网络语言模型建模和说话风格合成自适应方面的研究进展。

这个场景并不遥远,不久前,“AI First”的谷歌表示,其最新版本的人工智能语音合成系统——Tacotron2合成出来的语音几乎和真人声音一模一样。它拥有两个深度神经网络,第一个能够将文本转化为频谱图,第二个则负责将频谱图生成相应的音频。

永利游戏网址 1

在研究方面,腾讯 AI Lab
提出了一些新的方法和改进,在语音增强、语音分离、语音识别、语音合成等技术方向都取得了一些不错的进展。在落地应用上,语音识别中心为多个腾讯产品提供技术支持,比如「腾讯听听音箱」、「腾讯极光电视盒子」,并融合内外部合作伙伴的先进技术,在语音控制、语义解析、语音合成(TTS)等方面都达到了业内领先水平。

而麻省理工评论则认为百度的技术则更进一步,百度在最近发布的新论文中表示,该技术只要通过一个半小时的语音数据的学习,就能“克隆”出原对象的声音。虽然以前百度的“Deep Voice”也能够生成语音,但让生成出来的语音附带不同的语言特色正是语音生成的一大突破,而且它除了能“克隆”之外,还能对该声音的性别或口音进行更改,甚至还能赋予该克隆声音一些简单的情感。

极限元的定制化语音合成服务能够满足丰富的个性化声音设定,如林志玲的嗲气十足,郭德纲幽默逗趣,稚气呆萌的童声、游戏动漫角色声、各类方言等。极限元的定制化语音合成服务支持录音人选型、录音采集、语料标注,还能实现模型迭代训练、合成引擎优化,支持在线、离线模式,适用于多种平台,可应用于多个领域。全方位地为有需要的企业和用户提供专属声音,满足用户在不同应用场景下的个性化音色需求。只需要提供少量发音人样本,通过快速自适应训练,即可合成出高自然度的个性化语音,极大的增强了用户的体验感。

本文将基于智能音箱的基本工作流程介绍腾讯 AI Lab
在语音方面的近期研究进展。

语音克隆技术是什么?又能做些什么?

极限元语音合成技术专业MOS分可达4.0,拥有标配版女声和男声,女声包括标准型甜美型、萝莉型;男声包括标准型、浑厚型、清爽型。极限元已与百度、腾讯、搜狗、奇虎360、语文出版社等众多客户建立了长期稳定的合作关系。

首先,我们先了解一下音箱语音交互技术链条。

永利游戏网址 2

永利游戏网址 3

永利游戏网址 4

语音合成的技术有三种,但只有AI技术才能称为语音克隆

让声音富有情感和表现力,一直是语音合成技术的一大难点。而极限元在情感语音合成领域,与国际接轨,其创始团队源自中科院自动化研究所并成立“智能交互联合实验室”,号称语音合成界的“黄埔军校”;在人工智能领域有近20年技术积累,在国际会议和期刊上发表论文400余篇,申请语音及音频领域专利100余项;作为负责人、科研骨干参与多项国家自然基金项目、国家863项目和国家重点研发计划等项目,获得音视频情感竞赛第二名、北京市科学进步二等奖、中国专利奖优秀奖、Eurospeech大会奖等多种奖项。

智能音箱的最典型应用场景是家庭,在这种场景中用户与音箱设备的距离通常比用户在智能手机上使用语音应用的距离远很多,因此会引入较明显的室内混响、回声,音乐、电视等环境噪声,也会出现多说话人同时说话,有较强背景人声的问题。要在这样的场景中获取、增强、分离得到质量较好的语音信号并准确识别是智能音箱达到好的用户体验所要攻克的第一道难关。

最早的语音合成技术通过预先录制好的字词、短句来实现的,把各个部分串成一行,以此产生完整的句子。生活中各种服务热线的自助语音系统就是用这种方式实现的,所以会经常存在卡顿,音色不一样等问题,语气也很冰冷。

极限元致力于为呼叫中心、智能机器人、智能家居、车载导航、有声读物等相关应用场景提供更加优质的语音合成服务,为用户提供高质量的智能交互体验。返回搜狐,查看更多

麦克风阵列是这一步最常用的解决方案之一,比如腾讯听听就采用了由 6
个麦克风组成的环形阵列,能够很好地捕捉来自各个方位的声音。

第二种手段虽然能够使语音更加自然,但其中也需要大量的人工处理,首先是制作语音库,确定音色、风格、特性、角色等要求后,投入音库生产线,设计录音脚本、训练录音资源、进行效果优化,在输出的时候还要进行各类语言处理,包括文本规整、词的切分,然后是韵律处理,为其划出音段特征,如音高、音长和音强等等,使合成的语音给人的感觉更加自然些。

责任编辑:

麦克风采集到声音之后,就需要对这些声音进行处理,对多麦克风采集到的声音信号进行处理,得到清晰的人声以便进一步识别。这里涉及的技术包括语音端点检测、回声消除、声源定位和去混响、语音增强等。另外,对于通常处于待机状态的智能音箱,通常都会配备语音唤醒功能。为了保证用户体验,语音唤醒必须要足够灵敏和快速地做出响应,同时尽量减少非唤醒语音误触发引起的误唤醒。

但这类合成系统因为进行韵律预测处理方面的工作量巨大、所以也存在表现能力不足等问题,如合成语音对不同情感的表达会不够恰当,使得合成语音听起来缺乏人情味。而语音合成的技术发展不仅要让说话的声音达到真人水准,也应当在情感表达方面有所突破,使语音交互带有情感,达到更好的交流体验。

经过麦克风阵列前端处理,接下来要做的是识别说话人的身份和理解说话内容,这方面涉及到声纹识别、语音识别和模型自适应等方面的问题。

最近爆出的百度Deep Voice技术,则是通过深度学习技术实现“语音克隆”的,通过真实语音的训练,能在“听”的过程中学会每个人说话时字词、音位和句子的发音特点,并通过模仿这个人声音中的情感和语调,“说”出全新的语句;“一听一说”之间,整个过程基本不用人工干预,深度学习技术可以自行完成所有工作。

之后,基于对说话内容的理解执行任务操作,并通过语音合成系统合成相应语音来进行回答响应。如何合成高质量、更自然、更有特色的语音也一直是语音领域的一大重点研究方向。

具体来说,百度的研究人员是通过两种具体的方法来实现的:说话人适应(speaker adaption)和说话人编码(speaker encoding)。它们可以只用最少的音频数据来完成任务,并且在深度语音系统中,即使处于一个多扬声器模型,也不会降低质量。

腾讯 AI Lab 的研究范围涵盖了上图中总结的音箱语音交互技术链条的所有 5
个步骤,接下来将依此链条介绍腾讯 AI Lab 近期的语音研究进展。

其中“说话人适应”是使用多个克隆样本,基于反向传播的优化方法对多个说话人语音生成模型做精细调节。这个方法可以只作用于低维度的说话人嵌入,或者作用于整个模型;在低纬度的嵌入时,每个说话人所需的参数量比较少,而且需要较长的克隆时间,生成语音的质量也会差一些。

1)前端

其中“说话人编码”则需要训练一个单独的模型,用它直接从语音样本中推断出一个新的嵌入数据,然后再把这个嵌入数据用在多个讲话人语音生成的模型中。而且这个方法还带有时域和频域的处理模块,可以从音频样本分析中提取到有关说话人的身份信息,然后用注意力模块把各种信息以最优的方式结合起来。这个方法的好处是克隆耗时少、标明说话人信息所需要的参数少,使得这种方法在输入资源有限的场景中也能够使用。

采集到声音之后,首先需要做的是消除噪声和分离人声,并对唤醒词做出快速响应。

永利游戏网址 5

在拾音和噪声消除方面,腾讯 AI Lab 的 Voice Processing(简称
AIVP)解决方案集成了语音检测、声源测向、麦克风阵列波束形成、定向拾音、噪声抑制、混响消除、回声消除、自动增益等多种远场语音处理模块,能有效地为后续过程提供增强过的清晰语音。发表于
Symmetry 的论文《一种用于块稀疏系统的改进型集合-元素比例自适应算法(An
Improved Set-membership Proportionate Adaptive Algorithm For A
Block-sparse System)》
是在回声消除方面的研究。

                                                                       
  [图注?]

永利游戏网址 6

语音克隆的功与过

远场语音处理的各个模块

在人机交互的个性化场景中,研究人员预期语音克隆可能会有很重要的作用,如可以用来订制个人AI助手、读书音频以及残疾人语音系统等,且对有语言障碍人来说,这个程序能帮助他们练习发声,使他们更容易与人交流,这种过程就像是在和一个善解人意的朋友在聊天一样,可能会成为一个重要的社交工具。

在语音唤醒方面,腾讯 AI Lab 的 Interspeech 2018
研究《基于文本相关语音增强的小型高鲁棒性的关键词检测(Text-Dependent
Speech Enhancement for Small-Footprint Robust Keyword
Detection)》
针对语音唤醒的误唤醒、噪声环境中唤醒、快语速唤醒和儿童唤醒等问题提出了一种新的语音唤醒模型——使用
LSTM RNN
的文本相关语音增强(TDSE)技术,能显著提升关键词检测的质量,并且在有噪声环境下也表现突出,同时还能显著降低前端和关键词检测模块的功耗需求。

而在心理医疗领域,如果能复原出逝者的声音,这对于痛失亲人后在心理上造成了创伤的人们来说,也无疑是巨大的安慰。

永利游戏网址 7

不过语音克隆也会带来一些麻烦,它可能会被用来对公众人物进行恶意攻击;也可能会使声纹识别形同虚设,因为据《新科学家》报道,使用人工智能技术做出声音识别软件,在测试中,准确率已经超过了95%;也可能破坏录音作为法律证据的可信度;还可能会用来假冒他人身份,成为语音诈骗的帮凶。它预示着未来的声音可能会像照片一样,可以很容易地进行伪造。

基于文本相关语音增强的关键词检测架构

但克隆出的人类声音,这其中还是会有些细微差别,经不起详细推敲——取证专家可能会通过分析语音中的数字签名,从而证明其为合成语音;而研究人员也开始在研究一种“声纹”系统,以期其能很容易的分辨出原声和生成的语音;不过语音克隆还是存在着很多隐患,因为在普通的生活当中,足以造成相当严重的误导性效果。

2)声纹识别

声纹识别是指根据说话人的声波特性进行身份辨识。这种技术有非常广泛的应用范围,比如根据不同家庭用户的偏好定制个性化的应用组合。声纹系统还可用于判断新用户的性别和年龄信息,以便在之后的互动中根据用户属性进行相关推荐。

永利游戏网址 8

声纹识别也存在一些有待攻克的挑战。在技术上存在信道失配、环境噪声、短语音、远场等难题,在应用上还有录音冒认、兼容能力、交互设计等挑战。声纹模型还应当具备兼容确认和辨别功能,支持隐式更新和隐式注册,以便随用户使用时间的增长而逐步提升性能。

要实现“完美”的语音克隆,最大的一道坎在哪?

网站地图xml地图