机器人多模态融合感知技术

马少爷 2023-12-23 原文

01
引言

随着传感器技术和互联网的迅速发展，各种不同模态的大数据正在以前所未有的发展速度迅速涌现。对于一个待描述事物（目标、场景等），通过不同的方法或视角收集到的耦合的数据样本就是多模态数据。通常把收集这些数据的每一个方法或视角称之为一个模态。狭义的多模态信息通常关注感知特性不同的模态（如图像-文本、视频-语音、视觉-触觉等），而广义的多模态融合则通常还包括同一模态信息中的多特征融合，以及多个同类型传感器的数据融合等。因此，多模态感知与学习这一问题与信号处理领域的“多源融合”、“多传感器融合”，以及机器学习领域的“多视学习”或“多视融合”等有密切的联系。多模态数据可以获得更加全面准确的信息，增强系统的可靠性和容错性。在多模态感知与学习问题中，由于不同模态之间具有完全不同的描述形式和复杂的耦合对应关系，因此需要统一地解决关于多模态的感知表示和认知融合的问题。多模态感知与融合就是要通过适当的变换或投影，使得两个看似完全无关、不同格式的数据样本，可以相互比较融合。通俗地说，就是实现不同模态之间的“关公战秦琼”（见图 1）。这种异构数据的融合往往能取得意想不到的效果。

多模态数据目前已经在互联网信息搜索、人机交互、工业环境故障诊断和机器人等领域发挥了巨大的作用。视觉与语言之间的多模态学习是目前多模态融合方面研究成果较为集中的领域。在机器人领域目前仍面临很多需要进一步探索的挑战性问题。本文将着重介绍机器人多模态信息感知与融合，特别是在视觉与触觉融合感知方面的相关工作。

机器人多模态感知

机器人是指挥与控制系统中实现态势感知的重要工具。但在以机器人为代表的工程系统中，不同模态的传感器通常还只能在各自感知识别完成后做融合，使得融合逻辑的设计非常困难。最典型的案例就是 2016 年在美国特斯拉汽车在自动驾驶模式下的致死车祸。虽然该车配备了精良的传感器，但由于布局的问题，未能有效地融合视觉传感器和距离传感器信息。而在工业生产现场，由于感知模态融合能力的不足，目前只能实现一些非常简单的机械操作。

机器人系统上配置的传感器复杂多样。从摄像机到激光雷达，从听觉到触觉，从味觉到嗅觉，几乎所有传感器在机器人上都有应用。但限于任务的复杂性、成本和使用效率等原因，大多数工作仍然停留在实验室阶段。在目前市场上流行的服务机器人领域，用的最多的仍然是视觉和语音传感器，这两类模态一般是独立处理（如视觉用于目标检测、听觉用于语音交互）。由于大多数机器人尚缺乏操作能力和物理人机交互能力，触觉传感器基本还没有应用。

为了解决复杂场景下的机器人精细操作问题，要求机器人能够通过视觉、距离等模态信息感知环境，还需要触觉等接触性信息感知物体。各种不同模态的传感器为机器人实现更为高效的科学决策提供了基础，为智能机器人提供了新的机遇，也为多模态信息融合方法带来了新的挑战。这一工作对于解决机器人的环境感知、目标侦察、导航控制等具有重要意义，并可直接应用于无人车、操作臂等多种不同平台，实现灾害救援、反恐防爆、应急处置等任务。

然而，对于机器人系统而言，所采集到的多模态数据具有一些明显的特点，为融合感知的研究工作带来了巨大的挑战。这些问题包括：

（1）“污染”的多模态数据：机器人的操作环境非常复杂，因此采集的数据通常具有很多噪声和野点。

（2）“动态”的多模态数据：机器人总是在动态环境下工作，采集到的多模态数据必然具有复杂的动态特性。

（3）“失配”的多模态数据：机器人携带的传感器工作频带、使用周期具有很大差异，导致各个模态之间的数据难以“配对”。

以上这些问题为机器人多模态的融合感知带来了巨大的挑战。为了实现多种不同模态信息的有机融合，需要为他们建立统一的特征表示和关联匹配关系。

03
机器人视-触模态融合技术

目前很多机器人都配备了视觉传感器。在实际操作应用中常规的视觉感知技术受到很多限制，例如光照、遮挡等。对于物体的很多内在属性，例如“软”、“硬”等，则难以通过视觉传感器感知获取。对机器人而言，触觉也是获取环境信息的一种重要感知方式。与视觉不同，触觉传感器可直接测量对象和环境的多种性质特征。同时，触觉也是人类感知外部环境的一种基本模态。早在上世纪 80 年代，就有神经科学领域的学者在实验中麻醉志愿者的皮肤，以验证触觉感知在稳定抓取操作过程中的重要性。因此，为机器人引入触觉感知模块，不仅在一定程度上模拟了人类的感知与认知机制，又符合实际操作应用的强烈需求。

随着现代传感、控制和人工智能技术的发展，科研人员对包括灵巧手触觉传感器，以及使用所采集的触觉信息结合不同算法实现对于灵巧手抓取稳定性的分析以及对抓取物体的分类与识别开展了广泛的研究。触觉传感器对于灵巧手的精细操作意义重大。早在上世纪 90 年代，加州大学伯克利分校的Banks 等学者在 Nature（2002）① 和 Science（2002）② 上分别发表的两篇学术论文揭示了人类天然地具有最优融合视觉和触觉信息的能力，但如何通过计算模型为工程系统构建这样的能力还远远没有解决。

视觉信息与触觉信息采集的是物体不同部位的信息，前者是非接触式信息，而后者是接触式信息，因此他们反映的物体特性具有明显的差异，这也使得视觉信息与触觉信息具有非常复杂的内在关联关系。现阶段很难通过人工机理分析的方法得到完整的关联信息表示方法，因此数据驱动的方法是目前比较有效的解决这类问题的途径。为此，我们在结构化稀疏编码的统一框架下，建立了机器人多模态融合感知的计算模型（见图 2），开发了若干融合理解方法。以下简要介绍几个相关的研究工作。

（一）触觉阵列融合目标识别

机器人在操作过程中获取的触觉信息具有阵列化和序列化特点。已有的工作大都关注的是机械手的“指尖”建模。对于多指手，各个不同指尖获取的触觉序列可以视作为不同的传感器。常规的处理方法要么将他们视为独立的传感器，要么直接简单拼接起来。前者忽略了不同指尖之间的共性，后者则忽略了不同指尖之间的差异。我们针对触觉阵列特点开发了联合稀疏编码模型（图 3），解决了不同指尖之间的关联关系建模问题，并将其有效地应用于触觉目标识别，首次将这一领域的工作从传统的“指尖”建模推动到“指间”建模（见文献[2]）。

（二）触觉情感计算

如果说视觉目标识别是在确定物体的名词属性（如“石头”、“木头”），那么触觉模态则特别适合用于确定物体的形容词属性（如“坚硬”、“柔软”）。“触觉形容词”已经成为触觉情感计算模型的有利工具。值得注意的是，对于特定目标而言，通常具有多个不同的触觉形容词属性（见图 4 左），而不同的“触觉形容词”之间往往具有一定的关联关系，如“硬”和“软”一般不能同时出现，“硬”和“坚实”却具有很强的关联性。为此，我们建立了常见触觉形容词的关联频度矩阵（见图 4右），从中可以看出这些关联度与我们的直观理解高度吻合。通过将这些关联关系融入编码过程，我们建立了触觉情感计算模型。这一模型可以有效地对物体材质的触觉属性进行鉴别。特别是，当感知到“硬”、“光滑”等属性时，系统能自动分析出物体也具有“冷”的属性，从而有效地建立了接触觉与温度觉的通感。具体的算法模型和实验结果参见文献[3-4]。

（三）视-触模态融合识别

视觉与触觉模态信息具有显著的差异性。一方面，他们的获取难度不同。通常视觉模态较容易获取，而触觉模态更加困难。这往往造成两种模态的数据量相差较大。另一方面，由于“所见非所摸”，在采集过程中采集到的视觉信息和触觉信息往往不是针对同一部位的，具有很弱的“配对特性”。因此视觉与触觉信息的融合感知具有极大的挑战性。自从Banks 分析人类的视-触融合能力后，在机器人上实现高效视-触融合感知的研究进展异常缓慢。我们针对这一问题，利用开发的关联稀疏编码模型（见图5），首次解决了弱配对情形下的视-触融合目标识别问题（见文献[5]）。

展望

机器人是一个复杂的工程系统，开展机器人多模态融合感知需要综合考虑任务特性、环境特性和传感器特性。尽管大家已经充分认识到触觉模态在机器人系统上的应用，国内很多相关机构，如东南大学[6]、北京航空航天大学[8]等都在这方面开展了多年的研究工作，但目前机器人触觉感知方面的进展远远落后于视觉感知的进展。另一方面，如何融合视觉模态与触觉模态的研究工作尽管在上世纪 80 年代就开始有相关研究，但进展一直缓慢。近年来，围绕机器人操作任务，美国的宾夕法尼亚大学和加州大学伯克利分校[1]、德国的慕尼黑工业大学[7]都在开展这方面的研究工作。未来需要在视触融合的认知机理、计算模型、数据集和应用系统上开展突破，综合解决融合表示、融合感知、融合学习的融合计算问题。

参考文献

[1] V. Chu, I. McMahon, L. Riano, C. McDonalda, Q. Hea,J. Perez-Tejada, M. Arrigo, T. Darrell, K.Kuchenbeckera, Robotic learning of haptic adjectivesthrough physical interaction, Robotics and AutonomousSystem s, vol. 63, no. 3, pp. 279-292, 2015.

[2] H. Liu, D. Guo, F. Sun, Object recognition using tactile measurements: Kernel sparse coding methods, IEEE Transactions on Instrumentation and Measurement, vol.65, no.3, pp.656-665, 2016.

[3] H. Liu, F. Sun, D. Guo, B. Fang, Structured outputassociated dictionary learning for haptic understanding,IEEE Transactions on System s, Man and Cybernetics:System s, In press

[4] H. Liu, J. Qin, F. Sun, D. Guo, Extreme kernel sparse learning for tactile object recognition, IEEE Transactions on Cybernetics, In press

[5] H. Liu, Y. Yu, F. Sun, J. Gu, Visual-tactile fusion for object recognition, IEEE Transactions on Automation Science and Engineering, In press

[6] A.Song, Y.Han, H.Hu, J.Li, A novel texture sensor for fabric texture measurement and classification, IEEE Transactions on Instrumentation and Measurement, vol.63, no.7, pp.1739-1747, 2014.

[7] M. Strese, C. Schuwerk, A. Iepure, E. Steinbach, Multimodal feature-based surface material classification, IEEE Transactions on Haptics, In press

[8]D.Wang,X.Zhang, Y. Zhang, J. Xiao, Configurationbased optimization for six degree-of-freedom haptic rendering for fine manipulation, IEEE Transactions on Haptics, vol.6, no.2, pp.167-180, 2013

本文作者：刘华平清华大学计算机科学与技术系

清华大学计算机科学与技术系副教授、博士生导师，中国指挥与控制学会青年工作委员会委员，IEEE 高级会员。主要从事智能机器人的多模态感知、学习与控制技术研究。曾被评为国家高技术研究发展计划“十二五”科技攻关“青年创新之星”，2016年获中国指挥与控制学会创新二等奖。
“中国指挥与控制学会”微信公众号发布

多模态解释
多模态系统(multimodalsystem)是指两个或更多的具有不同特性的感知器(通常被称为模态传感器)，它们被集成到同一个硬件平台上。模态传感器是可以选择使用的，包括多光谱图像传感器、摄像机、视频传感器、激光扫描仪等。 7种模态(7CI)与媒体的选择无关，用户可以从许多感知器中任意选择。

多模机器人 xff0c xff xff0 人工智能

有关机器人多模态融合感知技术的更多相关文章

ruby - 在 Windows 机器上使用 Ruby 进行开发是否会适得其反？ - 2
这似乎非常适得其反，因为太多的gem会在window上破裂。我一直在处理很多mysql和ruby-mysqlgem问题(gem本身发生段错误，一个名为UnixSocket的类显然在Windows机器上不能正常工作，等等)。我只是在浪费时间吗？我应该转向不同的脚本语言吗？最佳答案我在Windows上使用Ruby的经验很少，但是当我开始使用Ruby时，我是在Windows上，我的总体印象是它不是Windows原生系统。因此，在主要使用Windows多年之后，开始使用Ruby促使我切换回原来的系统Unix，这次是Linux。Rub
Unity 热更新技术 | （三） Lua语言基本介绍及下载安装 - 2
?博客主页：https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创，首发于CSDN??学习专栏推荐：Unity系统学习专栏?游戏制作专栏推荐：游戏制作?Unity实战100例专栏推荐：Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正！?未来很长，值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
MIMO-OFDM无线通信技术及MATLAB实现（1）无线信道：传播和衰落 - 2
MIMO技术的优缺点优点通过下面三个增益来总体概括：阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下，MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中，可以获得复用增益，即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中，可以获得分集增益，即可靠性性能的改善。分集增益用独立衰落支路数来描述，即分集指数。在使用了空时编码的MIMO系统中，由于接收天线或发射天线之间的间距较远，可认为它们各自的大尺度衰落是相互独立的，因此分布式MIMO
ruby - 我的 Ruby IRC 机器人没有连接到 IRC 服务器。我究竟做错了什么？ - 2
require"socket"server="irc.rizon.net"port="6667"nick="RubyIRCBot"channel="#0x40"s=TCPSocket.open(server,port)s.print("USERTesting",0)s.print("NICK#{nick}",0)s.print("JOIN#{channel}",0)这个IRC机器人没有连接到IRC服务器，我做错了什么？最佳答案失败并显示此消息::irc.shakeababy.net461*USER:Notenoughparame
ruby-on-rails - 用于门户的 Ruby 技术 - 2
我刚刚看到whitehouse.gov正在使用drupal作为CMS和门户技术。drupal的优点之一似乎是很容易添加插件，而且编程最少，即重新发明轮子最少。这实际上正是Ruby-on-Rails的DRY理念。所以:drupal的缺点是什么？Rails或其他基于Ruby的技术有哪些不符合whitehouse.org(或其他CMS门户)门户技术的资格？最佳答案 Whatarethedrawbacksofdrupal?对于Ruby和Rails，这确实是一个相当主观的问题。Drupal是一个可靠的内容管理选项，非常适合面向社区的站点。它
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞
建模分析 | 平面2R机器人(二连杆)运动学与动力学建模(附Matlab仿真) - 2
目录0专栏介绍1平面2R机器人概述2运动学建模2.1正运动学模型2.2逆运动学模型2.3机器人运动学仿真3动力学建模3.1计算动能3.2势能计算与动力学方程3.3动力学仿真0专栏介绍?附C++/Python/Matlab全套代码?课程设计、毕业设计、创新竞赛必备！详细介绍全局规划(图搜索、采样法、智能算法等)；局部规划(DWA、APF等)；曲线优化(贝塞尔曲线、B样条曲线等)。?详情：图解自动驾驶中的运动规划(MotionPlanning)，附几十种规划算法1平面2R机器人概述如图1所示为本文的研究本体——平面2R机器人。对参数进行如下定义：机器人广义坐标
iNFTnews | 周杰伦18年前未发布的作品Demo，藏在了区块链技术里 - 2
当音乐碰上区块链技术，会擦出怎样的火花？或许周杰伦已经给了我们答案。8月29日下午，B站独家首发周杰伦限定珍藏Demo独家访谈VCR，周杰伦在VCR里分享了《晴天》《青花瓷》《搁浅》《爱在西元前》四首经典歌曲Demo背后的创作故事，并首次公布18年前未发布的神秘作品《纽约地铁》的Demo。在VCR中，方文山和杰威尔音乐提及到“多亏了区块链技术，现在我们可以将这些Demos，变成独一无二具有收藏价值的艺术品，这些Demos可以在薄盒（国内数藏平台）上听到。”如何将音乐与区块链技术相结合，薄盒方面称：“薄盒作为区块链技术服务方，打破传统对于区块链技术只能作为数字收藏的理解。聚焦于区块链技术赋能，在
【自动驾驶环境感知项目】——基于Paddle3D的点云障碍物检测 - 2
文章目录1.自动驾驶实战：基于Paddle3D的点云障碍物检测1.1环境信息1.2准备点云数据1.3安装Paddle3D1.4模型训练1.5模型评估1.6模型导出1.7模型部署效果附录show_lidar_pred_on_image.py1.自动驾驶实战：基于Paddle3D的点云障碍物检测项目地址——自动驾驶实战：基于Paddle3D的点云障碍物检测课程地址——自动驾驶感知系统揭秘1.1环境信息硬件信息CPU:2核AI加速卡:v100总显存:16GB总内存:16GB总硬盘:100GB环境配置Python:3.7.4框架信息框架版本:PaddlePaddle2.4.0（项目默认框架版本为2.3
智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2
2022年底，OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发，他展现的惊人能力将人工智能的研究和应用热度推向高潮，网上也充斥着和ChatGPT的各种聊天，他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复：人命关天的坑：写歌，留给词作者的机会不多了。。。回答人类怎么样面对人工智能：什么是ChatGPT？借用网上的一段介绍，ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动

机器人多模态融合感知技术

有关机器人多模态融合感知技术的更多相关文章

随机推荐