划重点:

车载语音智能化的短板在“语义理解”,AI 圈大火的 对车载语音智能化加成明显。

上车,主要还是成本的问题,这背后包括使用成本、云服务成本、针对性的训练成本。

云知声董事长 & CTO_梁家恩对 表示, 技术肯定会在车载、家居等智能交互应用有建树,但需要结合应用场景针对性优化。

思必驰汽车事业部产品总监葛付江对 表示,新技术发展一定会存在商业落地的挑战,AI 技术创新要结合场景应用,类 在车载的应用会在算力优化、云和端智能融合技术等方面形成挑战。

的火,一下子就烧到了车载领域。

众所周知,语音交互是车内最简洁、最人性化、最安全的交互方式,也是未来最主要的车内交互方式。随着 AI 和硬件性能的增强,语音交互是未来汽车的绝对主流。语音交互主要是车载自然语音识别与语音助手,也可以简单地说是 NLP 和 NLU 技术。既然是 NLP,那么理应是最近在 AI 圈大火的 的用武之地。事实真的如此吗?

理想L9内饰官图发布,或45万起,元芳你怎么看?_搜狐汽车_搜狐网

车载语音智能化,短板在“智能”

从技术角度看,智能语音交互主要有三大重点,分别是识别、理解、执行。在目前提供解决方案的厂商中,识别部分已经趋于成熟,识别率可以达到 90% 以上,有的识别率已达 95% 左右。行业的痛点主要聚焦于“理解”部分,大部分的车载语音交互系统在“理解”上并不智能,导致整个系统功能单一、命令词单一。

那么问题来了,如何让车载语音交互系统像人一样理解我们的话语?

这就涉及到 NLP(自然语言处理)技术,它们对于用户输入语音的理解与本身的场景策略、多轮对话有着密不可分的关系,并直接决定着车载语音交互系统的智能化程度。而提及 NLP,正中近期大“火”的 的下怀,是 的用武之地。

历史上,NLP 的发展有几个关键节点,其中,最重要的两个当属 2012 年和 2018 年。

2012 年,深度学习开始应用于 NLP 领域;2018 年开始,以谷歌 BERT 为代表的语义表示预训练取得了巨大突破,横扫各大 NLP 任务基准;2020 年 5 月, 斥巨资打造的 GPT-3 一经发表就引发行业轰动,这一版本的模型有 1750 亿参数量,被称为 NLP 领域的最强 AI 模型。

而最近大“火”的 是基于大规模预训练语言模型(GPT-3.5),借助其强大的语言理解和生成能力,通过在人工标注和反馈的大规模数据上进行学习chatgpt 交互创新,从而让预训练语言模型能够更好地理解人类的问题并给出更好的回复。

思必驰汽车事业部产品总监 葛付江对 表示, 目前是以文本交互机器人的形式呈现的,适用多种文本处理任务,常用于智能问答和对话、文本创作等领域;车载语音以对话交互为主,多用于进行例如“导航去 XXX?打开音乐”有明确指令的行动,“语音助手”用高度拟人化的语音输出来回应车主诉求。车载语音交互用于解放驾驶员双手,聚焦其注意力带来更安全、便利的驾驶体验。未来车内有了 技术的应用,不仅是完成固定指令的任务型对话,车、人能进行更高效、更直接、高灵活度的出行、知识和闲聊交流;

“”的爆火让市场看到了认知智能应用潜力。 在推理和学习能力上优势明显,不仅可以用于理解和对话,更可以通过上下文交流和自我学习,来实现辅助创作和知识进化。这些能力同样适用车载语音交互领域,融合对话智能技术、深度学习大模型技术、工程化能力、大数据的潜力,带来更流畅、更有效的响应。在车内有限的空间,结合声场定位和多说话人判断,提升多角色、长上下文对话的逻辑一致性;更可以拓展满足方言、外语的统一识别和对话需求,快速实现更灵活、自由、个性化的交互。”葛付江说道。

从目前诸多对于 的使用(包括我们自己),我们认为,仅就车载智能语音的 NLP,目前它应该是最好和最智能的。这是否意味着,其就一定会在短期内应用在车载智能语音系统中吗?

市场空间有限,产业链、市场挑战犹存

众所周知,一个新的技术或者产品能否最终落地得到规模的应用,除了技术因素外,还会受到其所处产业或者市场的产业链、市场竞争强弱、市场空间等诸多因素密切相关。

具体到车载智能语音系统,虽然 在“智能”上表现出色,但其在整个产业链条中比较偏后段,需要依赖很长的前端链条,比如信号处理、语音识别、文字输出之后才会用到它,前端链条上的因素对后端流程都会产生影响,例如信号处理会影响语音识别,语音识别如果出错就会影响 NLP 的判断,链条上每个模块都需要提高可靠性,才能保证最后出来的整体结果可靠。这意味着, 在“智能”能力的输出上,并非完全取决于自身的能力,其产业链上任何一个环节都会对其造成正或负的影响。

云知声董事长 & CTO_梁家恩对 表示, 技术肯定会在车载、家居等智能交互应用有建树,但需要结合应用场景针对性优化,提高体验并降低服务成本等。

“车载等智能交互应用场景有很大体验升级空间,但目前 是一个超大模型,如何保持体验情况下,显著降低服务成本是个关键问题“。

而从市场竞争的强弱看,据相关统计,目前车载语音系统市场除了已经被科大讯飞和 垄断,且它们在此领域具有多年的产品和合作经验外,还有许多规模不同的企业参与其中,更为重要的是,目前车载语音市场已经遇到了增长的天花板,这使得在竞争激烈的同时,就连科大讯飞和 都开始除了语音之外,开始走车内多模态交互,云服务集成等服务的路线,以综合实力提升竞争力。作为后来者的 一旦决定进入车载智能语音市场势必会面临强大对手的挑战。

葛付江补充称,从成本来看, 的研究需要巨大的资金和人才投入,他们需要超算平台、算法、数据等各核心力量支撑,这些都是成本。巨头平台公司目前来看具备这方面的优势,对于科技企业可以更多从场景融合入手,寻求创新机会。

从商业化场景看,目前 更适用于基于一定背景知识的创作型产业,以及刚需 AIGC 的场景、SOP(标准作业程序)的行业,比如智能写作、智能客服、文档管理、代码生成、甚至游戏 NPC 等。

班门弄斧主理人孙永杰指出,从单纯的车载语音市场看,其市场空间并不大chatgpt 交互创新,这点从已经垄断该市场的科大讯飞和 的财报可见一斑。这种情况下chatgpt 交互创新,能否吸引成本高昂的 进入也是个未知数。毕竟 训练成本高昂,且其所属的 Open AI 依然处在亏损当中。

未来仍可期,合作和开放 API 或是更好选择

如前述可知, 只是在车载智能语音的 NLP 环节具备优势,虽然 据称也在进行语音识别和合成上进行 AI 训练,希望未来可以借此进入车载智能语音市场。但鉴于 只是文本交互方式,即便是进行语音识别和合成的 AI 训练,最后效果如何?能否超过目前市面上存在和已经应用的车载智能语音系统仍是未知。

当然,鉴于 强大的能力, 认为未来的市场空间会随着智能汽车应用场景的不断扩大, 找到自己真正的用武之地并非没有可能。更值得期待的是,除了智能汽车本身外,站在整个汽车产业的高度,其未来在汽车设计、制造等领域的应用都充满想象的空间。

葛付江表示:“ 上车的应用具体如何发展,目前形势还不明朗。可预见的是,在车载场景下,大模型技术学习能力优势明显,通过强化上下文理解能力、思维链推理、增强指令学习,来实现持续学习,达成可以“回答类似问题”的效果,除指令需求外,日常的知识和闲聊对话交流可以更加流畅和有用。总体来说,技术会向统一多模态交互发展,强化语音、文本、图像等深度融合的多模态交互技术,形成“汽车大脑”,应对车内、公共空间等复杂场景的交互需求。”

小鹏技术团队对 表示, 的语言组织能力很强,以及知识库也比较庞大,涉及领域更广,所以可能会给用户的体验更好更智能。至于我们未来要 不要引入这个技术接口,还是做类似技术的融合开发,我们也在进一步探索~

基于此, 认为,合作应该是 切入车载智能语音市场最经济和有效的方式。所谓各取所长就是这个道理。实际的情况是,近日国内集度汽车宣布将融合百度文心一言的全面能力,打造全球首个针对智能汽车场景的大模型人工智能交互体验,证明了此模式的可行性。

此外,将自己最擅长的能力通过 API 开放给第三方,仅输出自身最擅长的能力也不失为明智的选择。

免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表本站的观点和立场和对其真实性负责。如需转载,请联系原作者。如果来源标注有误或侵犯了您的合法权益或者其他问题不想在本站发布,来信即删。