“听见”更好的世界,StyleTTS端到
随着社会进步和技术创新的日益加快,“黑科技”的产业运用持续加速,对人们生活的影响与改变也不断加深。
近期,业内领先的搜狗AI语音合成再突破,创新提出“端到端合成框架”,将语音合成技术再次向前推进一步,在准确传递信息之外,更重视个性化及情感表达,让合成的语音更具表现力,更“逼真”。搜狗联合搜狐新闻客户端于5月推出的演员柳岩同款明星“数字人”就是基于该技术的支持,实现了无缝切换河南、湖南、四川、陕西、东北等多种方言的能力。目前,该技术也为腾讯QQ浏览器“小说AI听书”功能提供支持,助力其实现了听书、听小说的全新升级。
搜狗语音AI业内领先,帮助“听见”更好世界
作为机器的“嘴巴”,语音合成已经被广泛应用于新闻播报、小说阅读、地图导航、人机交互等诸多场景中。从2010年以前经典的统计机器学习方法,到DNN/LSTM为代表的深度神经网络,再到//等具有更强建模能力的端到端模型,结合神经声码器的突破,语音合成技术的发展正在从“稳定可懂”迭代到“更高表现力和逼真度,甚至媲美真人录音的水平”。
搜狗AI语音合成有着雄厚的技术积累,2018年曾获得 语音合成挑战赛停顿和可懂两项子任务第一名,2019年推出首个真人变声功能实现“任意说话人声音(源)向指定说话人声音(目标)的实时变换”,展现了搜狗在语音表征学习、语音合成等领域的多个关键性技术突破。此外,以新华社AI合成主播“新小浩”和自有形象合成主播“雅妮”为代表的搜狗数字人也已升级至“第七代”,这些AI数字人的声音真实度、表现力已可媲美真人,展现了在多模态合成领域的行业领先性。
在此基础上,搜狗又提出了端到端合成框架,该框架主要包含文本特征编码、 /韵律特征编码与建模、音色建模三大模块,通过不同人(声)的韵律模型和音色模型重组搭配,能够实现跨发音人的风格控制合成,并拥有抑扬顿挫的韵律节奏和丰富立体的情感表达。此外,模型还加入说话人特征编码、语种特征编码以及GAN对抗学习等经典方法,进一步提升建模能力。相较而言,传统语音合成技术的重点在于“信息的正确传递”,而搜狗AI语音合成技术除了正确传递信息,更重视个性化与情感共鸣,合成效果也具有更高的自然度、辨识度,同时还能实现对语音转换的风格、口音、情感等进行灵活选择与控制,从而满足不同场景的需求。
(图:搜狗结构图)
以对腾讯QQ浏览器“AI听书”的支持为例,区别于其他机器合成声音的机械式发音,搜狗AI合成语音节奏更分明、情绪更自然,能够更好的解放双眼,而除了堪比真人的高保真音色,支持“方言语音”、“动漫语音”等的选择,在读书过程中,用户还可以根据场景和心情进行播单设置、语速调节等个性化操作,这些都能够提供更好的使用体验,帮助用户“听见”更好的世界。
声音+产业构建,前瞻“布局”未来生活
“声音+”市场呈爆发式增长,已步入千亿量级市场。数据显示,在阅读领域,“看”已不是阅读的唯一方式,十个人当中就超过两个人在听书;在音频领域,有声书实现了从贡献流量到商业变现的路径打通,正在成长为喜马拉雅FM等各大音频平台的支撑或主流业务;在智能硬件领域,仅智能音箱一项,未来五年销量将突破3亿台超过PC规模……未来10 年,“声音+”整合产业规模将达到万亿美金级别。
随着智能社会的到来,声音作为最自然、最便利的人机交互方式,上接互联网、下接物联网、中间连接人工智能,既是出口也是入口,而作为“声音+”产业的基础设施之一,语音合成孕育着一个巨大的蓝海市场。
对此,搜狗已经进行前瞻性布局和产业化落地。在AI语音合成技术方面,围绕“自然交互+知识计算”这一AI理念,搜狗不断加大投入构建技术“护城河”,持续累积领先优势;在创新性平台方面,搜狗打造了“搜狗声咖”、“搜狗AI开放平台”等,基于语音技术提供语音识别、语音合成、语义理解、同声传译等AI服务;在产业落地方面,搜狗不仅积极推动与清华天工研究院等学术机构,与畅游、千龙网、学而思等商业机构,乃至于与黄子韬、梁宁等明星和意见领袖等的合作,运用了搜狗语音技术的搜狗AI合成主播也被广泛使用于传媒、法律、金融等各行各业。
随着时代发展与科技进步,智能语音将会变得越来越普及,得益于搜狗领先的人工智能技术,以及在语言领域、声音领域的强大积累,搜狗语音能够提供一整套科学、高效的“AI语音解决方案”,为人赋能,帮助人们更好的进行“有声创作”、帮助各种机构更好的提供“有声服务”,从根本上推动“声音产业”和“人工智能产业”的发展,从这个意义上来说,其未来发展具有广阔的空间。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。