草庐IT

深度 | 车载语音群雄并起共争智能座舱新高地

数据堂官方账号 2023-04-04 原文

不论是苹果公司iOS系统中的智能语言助手“Siri”,还是微软Windows系统中的“Cortana”,智能语音交互早已融入我们生活之中。随着汽车产业的发展,用户消费形态的改变,自动驾驶、智能座舱、新能源这些概念已经逐渐落地成为现实,智能语音交互与汽车之间也擦出了别样的火花。

由于驾驶汽车无法解放双手,对于人机互动的需求,则更多需要通过语言来实现。因此,结合了人工智能的车载语音交互系统作为汽车智能网联时代的代表性产物,被更广泛地运用于汽车之中。

据盖世汽车研究院报告显示,随着消费者对座舱体验要求的提升,智能座舱将融合更多智能化、数字化功能,使得其单车价值量将大幅提升,2030年有望达到千亿规模。车载语音交互系统作为智能座舱中不可或缺的一部分,是车内最直接、最人性化、最安全的交互方式,随着AI和硬件性能的增强,也将成为未来最主要的车内交互方式。

解决难点成行业首要共识

智能语音交互主要有三大重点,分别是识别、理解、执行。在目前提供解决方案的厂商中,识别部分已经趋于成熟,识别率可以达到90%以上,像是数据堂等公司的识别率已达95%左右。行业的痛点主要聚焦于“理解”部分,大部分的车载语音交互系统在“理解”上并不智能,其主要体现在操作复杂与交互机械两个方面:

现在大部分厂商提供的语音交互解决方案是通过触摸屏与部分语音相结合的方式进行交互。同时在屏幕内的不同应用中还内置了不同的语音方案,这也带来了许多的操作不便。

此前传统主机厂提供的前端语音交互的功能,大部分采用命令控制。用户需按照指定命令去进行交互,机器不具备语义理解能力。交互机械化,导致整个系统功能单一、命令词单一。

此外,虽然语音识别准确率已经达到了一个较高的水平,但是用户毕竟是一个有独立精神的个体而非机器人,“口误”随时可能发生。因此在语音交互时,具有很大的不确定性,由于缺乏适应用户语音使用习惯的系统,以至于达不到正常的交互,无法完成用户设定的目标。

如何让车载语音交互系统像人一样理解我们的话语?这主要涉及到NLP(自然语言处理)技术,它们对于用户输入语音的理解与本身的场景策略、多轮对话有着密不可分的关系,并直接决定着车载语音交互系统的智能化程度。

如何交互,语音识别提供商献计献策

目前谷歌在NLP技术中处于一枝独秀的地位,但在国内中文车载语音交互市场,科大讯飞、微软、数据堂、亚马逊、百度等公司都在云服务和NLP技术领域拥有不俗的实力。

科大讯飞作为汽车智能化领域的先行者,自2003年开始,深耕汽车智能化领域,使人工智能技术在汽车产品上得到了深度应用。目前合作已覆盖90%以上的中国自主品牌和合资品牌车厂,累计前装搭载量突破 3600万套。

对于智能座舱提供了一整套解决方案。以全链路的产品和服务合作为基础,让用户的体验和管理持续迭代、持续在线。他们不仅仅停留于语音交互,还融入视觉和声纹多模感知交互等,让智能语音系统不再只服务于驾驶者。此外,科大讯飞还在车载语音识别系统中加入了深度学习功能,致力于为汽车用户打造一个专属自己的虚拟人工助理。值得一提的是,截止至2021年10月,科大讯飞共夺得38项国际人工智能大赛冠军,在人工智能领域建树颇多。

科大讯飞车载语音系统;图片来源:科大讯飞

微软也在车载语音交互江湖“摩拳擦掌”,其在去年就联合华人运通打造首个主动式人工智能伙伴 HiPhiGo。2021年4月,微软官宣了一项重量级收购,花费160亿美元收购美国最大语音识别公司Nuance。比尔·盖茨说过,“自然语言处理是人工智能皇冠上的明珠,如果我们能够推进自然语言处理,就可以再造一个微软。”

搭配微软车载语音系统的HiPhi X;图片来源:高合汽车

车载语音交互系统离不开语音识别技术的支持,即在文中一开始提到“识别”的部分。语音识别作为一种基础层感知类技术,既可以作为核心技术直接应用于终端产品,也可以仅作为一种感知类辅助技术集成于语音助手、车载系统、智慧医疗、智慧法院等场景的产品中。

数据堂专注于AI数据服务,作为国内首家上市的人工智能数据服务企业,拥有国际领先的自主核心数据处理技术,已实现基于ML辅助技术进行大规模数据生产的能力。在语音识别数据领域,数据堂现有20万小时的成品语音数据集,覆盖多设备、多类型、多环境与多语种,可快速帮助企业快速提高语音模型识别准确率。

成品语音数据覆盖30个语种;图片来源:数据堂

如何让系统更懂你,仍有许多思考空间

从专业的角度而言,语音识别作为一门交叉学科,涉及到从语言学到通信理论等多方面内容,还涉及到声纹、TTS、ASR、RNN等等一系列技术,同时要对一些特定领域有着深入理解。此外,汉语语义复杂,各地口音众多,也为系统开发增添了不小的难度。所以为智能语音交互提供解决方案是依靠相关企业共同合作还是一家企业独立完成,成为了未来的一个观察方向。

从产业的角度而言,语音交互的发展趋势正在从单模交互向和其他交互方式配合的多模交互发展。比如在车载系统中,语音识别结合虹网膜识别用来来判断驾驶员的疲劳程度;车载语音机器人通过声音和脸部识别抓取,判断用户的行为轨迹。因此车载语音如何构建与摄像头、座椅等配件的联动,真正实现智能座舱的一体化协同发展,也需要车载语音交互系统提供商们思考。

从市场的角度而言,汽车作为一个整体性销售的产品,无论是硬件还是软件,用户在使用中出现问题,首先想到的一定是寻找车厂解决,所以主机厂在寻找第三方合作的时候都会很谨慎。目前车载语音交互系统的提供商与主机厂合作关系良好,但是作为软件的部分,其涉及后续的OTA与是否付费的探讨。因此,未来主机厂会不会独立开发或者请提供商为其开发一套属于自己的语音交互系统也是一个值得思考的方向。

有关深度 | 车载语音群雄并起共争智能座舱新高地的更多相关文章

  1. 深度学习部署:Windows安装pycocotools报错解决方法 - 2

    深度学习部署:Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯:公主号AiCharm本系列是作者在跑一些深度学习实例时,遇到的各种各样的问题及解决办法,希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal

  2. 深度学习12. CNN经典网络 VGG16 - 2

    深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG(VisualGeometryGroup)是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军,定位竞赛冠军;VGG网络采用连续的小卷积核(3x3)和池化层构建深度神经网络,网络深度可以达到16层或19层,其中VGG16和VGG

  3. 玩以太坊链上项目的必备技能(初识智能合约语言-Solidity之旅一) - 2

    前面一篇关于智能合约翻译文讲到了,是一种计算机程序,既然是程序,那就可以使用程序语言去编写智能合约了。而若想玩区块链上的项目,大部分区块链项目都是开源的,能看得懂智能合约代码,或找出其中的漏洞,那么,学习Solidity这门高级的智能合约语言是有必要的,当然,这都得在公链``````以太坊上,毕竟国内的联盟链有些是不兼容Solidity。Solidity是一种面向对象的高级语言,用于实现智能合约。智能合约是管理以太坊状态下的账户行为的程序。Solidity是运行在以太坊(Ethereum)虚拟机(EVM)上,其语法受到了c++、python、javascript影响。Solidity是静态类型

  4. 智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2

    2022年底,OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发,他展现的惊人能力将人工智能的研究和应用热度推向高潮,网上也充斥着和ChatGPT的各种聊天,他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复:人命关天的坑: 写歌,留给词作者的机会不多了。。。 回答人类怎么样面对人工智能: 什么是ChatGPT?借用网上的一段介绍,ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动

  5. ruby Hash 包括另一个哈希,深度检查 - 2

    进行这种深度检查的最佳方法是什么:{:a=>1,:b=>{:c=>2,:f=>3,:d=>4}}.include?({:b=>{:c=>2,:f=>3}})#=>true谢谢 最佳答案 我想我从那个例子中明白了你的意思(不知何故)。我们检查子哈希中的每个键是否在超哈希中,然后检查这些键的对应值是否以某种方式匹配:如果值是哈希,则执行另一次深度检查,否则,检查值是否相等:classHashdefdeep_include?(sub_hash)sub_hash.keys.all?do|key|self.has_key?(key)&&ifs

  6. ruby-on-rails - Ruby 获取深度嵌套的 JSON API 数据 - 2

    我有一个Rails应用程序,它从WorldWeatherOnlineAPI获取响应。我正在使用rest-clientgem,响应采用JSON格式。我使用以下方法解析响应:parsed_response=JSON.parse(response)parsed_response显然是一个散列。我需要的数据是哈希内的字符串,数组内的哈希,另一个数组内的哈希,另一个哈希内的另一个哈希内的字符串。最内层的嵌套散列在["hourly"]中,这是一个由8个散列组成的数组,每个散列有20个键,拥有各种天气参数的字符串值。数组中的每个哈希值都是一天中的不同时间(预测是每三小时一次,3*8=24小时)。因此

  7. ruby-on-rails - 在 Rails 中实现具有灵活深度的类别和子类别的最佳方法? - 2

    我的项目中有一个类别和子类别模型。我想以灵活的方式拥有许多子级别。我想制作一个self引用的“父”外键,但我不太确定该怎么做。有任何想法吗?谢谢!Cat1Sub1SubSub1SubSub2Sub2Cat2Sub1Cat3Sub1Sub2SubSub1 最佳答案 试试acts_as_tree插件 关于ruby-on-rails-在Rails中实现具有灵活深度的类别和子类别的最佳方法?,我们在StackOverflow上找到一个类似的问题: https://st

  8. ruby - 将 OpenStruct 深度转换为 JSON - 2

    我有一个OpenStruct,它嵌套在许多其他OpenStructs中。将它们全部深度转换为JSON的最佳方法是什么?理想情况下:x=OpenStruct.newx.y=OpenStruct.newx.y.z=OpenStruct.newz='hello'x.to_json//{y:z:'hello'}现实{} 最佳答案 没有默认方法来完成这样的任务,因为内置的#to_hash返回哈希表示,但它不会深度转换值。如果值是OpenStruct,它会原样返回,不会转换成Hash。然而,这并不难解决。您可以创建一个遍历OpenStruct实

  9. 基于python的短视频智能推荐/django的影视网站/视频推荐系统 - 2

    摘要本论文主要论述了如何使用Python技术开发一个短视频智能推荐,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述短视频智能推荐的当前背景以及系统开发的目的,后续章节将严格按照软件开发流程,对系统进行各个阶段分析设计。 短视频智能推荐的主要使用者分为管理员和用户,实现功能包括管理员:首页、个人中心、用户管理、热门视频管理、用户上传管理、系统管理,用户:首页、个人中心、用户上传管理、我的收藏管理,前台首页;首页、热门视频、用户上传、公告信息、个人中心、后台管理等功能。由于本网站的功能模块设计比较全面,所以使得整个短视频智能推荐信

  10. 李沐《动手学深度学习》d2l——安装和使用 - 2

    今天想要跟着沐神学习一下循环神经网络,在跑代码的时候,d2l出现了问题,这里记录一下解决的过程,方便以后查阅。李沐《动手学深度学习》d2l——安装和使用安装d2l解决Import“...“couldnotberesolved问题PermissionError:[WinError5]拒绝访问。:'..\\\data'安装d2l下载whl:https://www.cnpython.com/pypi/d2l/dl-d2l-0.15.1-py3-none-any.whl将下载的文件放到这里:在这个文件中右键,选择“在终端中打开”在终端中输入如下命令:condaactivatepytorch_envpi

随机推荐