无创解码大脑信号语义，中科院自动化所研发脑-图-文多模态学习模型

机器之心 2023-08-06 原文

论文地址：https://ieeexplore.ieee.org/document/10089190
代码地址：https://github.com/ChangdeDu/BraVL
数据地址：https://figshare.com/articles/dataset/BraVL/17024591

太长不看版

这项研究首次将大脑、视觉和语言知识相结合，通过多模态学习的方式，实现了从人类脑活动记录中零样本地解码视觉新类别。本文还贡献了三个「脑 - 图 - 文」三模态匹配数据集。

实验结果表明了一些有趣的结论和认知洞见：1）从人类脑活动中解码新的视觉类别是可以实现的，并且精度较高；2）使用视觉和语言特征的组合的解码模型比仅使用其中之一的模型表现更好；3）视觉感知可能伴随着语言影响来表示视觉刺激的语义。这些发现不仅对人类视觉系统的理解有所启示，而且也为将来的脑机接口技术提供了新的思路。本研究的代码和数据集均已开源。

研究背景

解码人类视觉神经表征是一个具有重要科学意义的挑战，可以揭示视觉处理机制并促进脑科学与人工智能的发展。然而，目前的神经解码方法难以泛化到训练数据以外的新类别上，主要原因有两个：一是现有方法未充分利用神经数据背后的多模态语义知识，二是现有的可利用的配对（刺激 - 脑响应）训练数据很少。

研究表明，人类对视觉刺激的感知和识别受到视觉特征和人们先前经验的影响。例如当我们看到一个熟悉的物体时，我们的大脑会自然而然地检索与该物体相关的知识。如下图 1 所示，认知神经科学对双重编码理论 [9] 的研究认为，具体概念在大脑中既以视觉方式又以语言方式进行编码，其中语言作为有效的先验经验，有助于塑造由视觉生成的表征。

因此，作者认为想要更好地解码记录到的脑信号，不仅应该使用实际呈现的视觉语义特征，还应该包括与该视觉目标对象相关的更丰富的语言语义特征的组合来进行解码。

图 1. 人类大脑中的知识双重编码。当我们看到大象的图片时，会自然地在脑海中检索到大象的相关知识（如长长的鼻子、长长的牙齿、大大耳朵等）。此时，大象的概念会在大脑中以视觉和语言的形式进行编码，其中语言作为一种有效的先前经验，有助于塑造由视觉产生的表征。

如下图 2 所示，由于收集各种视觉类别的人脑活动非常昂贵，通常研究者只有非常有限的视觉类别的脑活动。然而，图像和文本数据却非常丰富，它们也可以提供额外的有用信息。本文的方法可以充分利用所有类型的数据（三模态、双模态和单模态）来提高神经解码的泛化能力。

图 2. 图像刺激、引发的大脑活动以及它们相应的文本数据。我们只能为少数类别收集大脑活动数据，但是可以很容易地收集几乎所有类别的图像和 / 或文本数据。因此，对于已知类别，我们假设大脑活动、视觉图像和相应的文本描述都可用于训练，而对于新类别，仅视觉图像和文本描述可用于训练。测试数据是来自新类别的大脑活动数据。

「脑 - 图 - 文」多模态学习

如下图 3A 所示，本文方法的关键在于将每种模态学习到的分布对齐到一个共享的潜在空间中，该空间包含与新类别相关的基本多模态信息。

具体地说，作者提出了一种多模态自编码变分贝叶斯学习框架，其中使用了专家混合相乘模型（Mixture-of-Products-of-Experts，MoPoE），推断出一种潜在编码，以实现所有三种模态的联合生成。为了学习更相关的联合表示，并在脑活动数据有限的情况下提高数据效率，作者还进一步引入了模态内和模态间的互信息正则化项。此外，BraVL 模型可以在各种半监督学习场景下进行训练，以纳入额外的大规模图像类别的视觉和文本特征。

在图 3B 中，作者从新类别的视觉和文本特征的潜在表示中训练 SVM 分类器。需要注意的是，在这一步中编码器 E_v 和 E_t 被冻结，只有 SVM 分类器（灰色模块）会被优化。

在应用中，如图 3C 所示，本文方法的输入仅为新类别脑信号，不需要其他数据，因此可以轻松应用于大多数神经解码场景。SVM 分类器之所以能够从（B）推广到（C），是因为这三种模态的潜在表示已经在 A 中对齐。

图 3 本文提出的 “脑 - 图 - 文” 三模态联合学习框架，简称 BraVL。

此外，脑信号会因试次（trial）的不同而发生变化，即使是相同的视觉刺激也是如此。为了提高神经解码的稳定性，作者使用了稳定性选择方法来处理 fMRI 数据。所有体素的稳定性分数如下图 4 所示，作者选取稳定性最好的前 15% 体素参与神经解码过程。这种操作可以有效地降低 fMRI 数据的维度，并抑制噪声体素引起的干扰，而不会严重影响脑特征的判别能力。

图 4. 大脑视觉皮层的体素活动稳定性分数映射图。

现有的神经编解码数据集往往只有图像刺激和脑响应。为了获取视觉概念对应的语言描述，作者采用了一种半自动的维基百科文章抽取方法。

具体来说，作者首先创建 ImageNet 类与其对应的维基百科页面的自动匹配，匹配是基于 ImageNet 类和维基百科标题的同义词集单词之间的相似性，以及它们的父类别。如下图 5 所示，遗憾的是，这种匹配偶尔会产生假阳性，因为名称相似的类可能表示非常不同的概念。在构建三模态数据集时，为了确保视觉特征和语言特征之间的高质量匹配，作者手动删除了不匹配的文章。

图 5. 半自动视觉概念描述获取

实验结果

作者在多个「脑 - 图 - 文」三模态匹配数据集上进行了广泛的零样本神经解码实验，实验结果如下表所示。可以看到，使用视觉和文本特征组合 (V&T) 的模型比单独使用它们中的任何一种的模型表现得要好得多。值得注意的是，基于 V&T 特征的 BraVL 在两个数据集上的平均 top-5 准确率都有显著提高。这些结果表明，尽管呈现给被试的刺激只包含视觉信息，但可以想象，被试会下意识地调用适当的语言表征，从而影响视觉处理。

对于每个视觉概念类别，作者还展示了加入文本特征后的神经解码准确率增益，如下图 6 所示。可以看到，对于大多数测试类，文本特征的加入都有积极的影响，平均 Top-1 解码精度提高了约 6％。

图 6. 加入文本特征后的神经解码准确率增益

除了神经解码分析，作者还分析了文本特征在体素级神经编码方面的贡献 (基于视觉或文本特征预测相应的脑体素活动)，结果如图 7 所示。可见，对于大多数高级视觉皮层 (HVC，如 FFA, LOC 和 IT)，在视觉特征的基础上融合文本特征可以提高大脑活动的预测精度，而对于大多数低级视觉皮层 (LVC，如 V1, V2 和 V3)，融合文本特征是没有好处的，甚至是有害的。

从认知神经科学的角度来看，我们的结果是合理的，因为一般认为 HVC 负责处理物体的类别信息、运动信息等更高层次的语义信息，而 LVC 负责处理方向、轮廓等底层信息。此外，最近的一项神经科学研究发现，视觉和语言语义表示在人类视觉皮层的边界上对齐 (即「语义对齐假说」)[10]，作者的实验结果也支持这一假说

图 7. 将文本特征贡献投影到视觉皮层

更多实验结果请参见原文。

总体上，本文得出了一些有趣的结论和认知洞见：1）从人类脑活动中解码新的视觉类别是可以实现的，并且精度较高；2）使用视觉和语言特征组合的解码模型比单独使用两者中的任何一种的解码模型的性能要好得多；3）视觉感知可能伴随着语言影响来表示视觉刺激的语义；4) 使用自然语言作为概念描述比使用类名具有更高的神经解码性能；5) 单模态和双模态的额外数据均能显著提高解码精度。

讨论与展望

论文第一作者、中科院自动化所特别研究助理杜长德表示：「此工作证实了从大脑活动、视觉图像和文本描述中提取的特征对于解码神经信号是有效的。然而，提取的视觉特征可能无法准确反映人类视觉处理的所有阶段，更好的特征集将有助于这些任务的完成。例如，可以使用更大的预训练语言模型（如 GPT-3），来提取更具有零样本泛化能力的文本特征。此外，尽管维基百科文章包含丰富的视觉信息，但这些信息很容易被大量的非视觉句子所掩盖。通过视觉句子提取或者使用 ChatGPT 和 GPT-4 等模型收集更准确和丰富的视觉描述可以解决这个问题。最后，与相关研究相比，虽然本研究使用了相对较多的三模态数据，但更大更多样化的数据集会更有益。这些方面我们留待未来的研究。」

论文通讯作者、中科院自动化所何晖光研究员指出：「本文提出的方法有三个潜在的应用：1）作为一种神经语义解码工具，此方法将在新型读取人脑语义信息的神经假肢设备的开发中发挥重要作用。虽然这种应用还不成熟，但本文的方法为其提供了技术基础。2）通过跨模态推断脑活动，本文方法还可以用作神经编码工具，用于研究视觉和语言特征如何在人类大脑皮层上表达，揭示哪些脑区具有多模态属性（即对视觉和语言特征敏感）。3）AI 模型内部表征的神经可解码性可以被视为该模型的类脑水平指标。因此，本文的方法也可以用作类脑特性评估工具，测试哪个模型的（视觉或语言）表征更接近于人类脑活动，从而激励研究人员设计更类脑的计算模型。」

神经信息编解码是脑机接口领域的核心问题，也是探索人脑复杂功能背后的原理从而促进类脑智能发展的有效途径。自动化所神经计算与脑机交互研究团队已在该领域持续深耕多年，做出了一系列研究工作，发表在 TPAMI 2023、TMI2023、TNNLS 2022/2019、TMM 2021、Info. Fusion 2021, AAAI 2020 等。前期工作被 MIT Technology Review 头条报道，并获得 ICME 2019 Best Paper Runner-up Award。

该研究得到了科技创新 2030—“新一代人工智能” 重大项目、基金委项目、自动化所 2035 项目以及中国人工智能学会 - 华为 MindSpore 学术奖励基金及智能基座等项目的支持。

作者简介

第一作者：杜长德，中科院自动化所特别研究助理，从事脑认知与人工智能方面的研究，在视觉神经信息编解码、多模态神经计算等方面发表论文 40 余篇，包括 TPAMI/TNNLS/AAAI/KDD/ACMMM 等。曾获得 2019 年 IEEE ICME Best Paper Runner-up Award、2021 年 AI 华人新星百强。先后承担科技部、基金委、中科院的多项科研任务，研究成果被 MIT Technology Review 头条报道。

个人主页：https://changdedu.github.io/

通讯作者：何晖光，中科院自动化所研究员，博导，中国科学院大学岗位教授，上海科技大学特聘教授，中科院青促会优秀会员，建国七十周年纪念章获得者。先后承担 7 项国家自然基金（含基金重点和国际合作重点）、2 项 863、国家重点研究计划课题等项目。曾获得国家科技进步二等奖两项（分别排名第二、第三）、北京市科技进步奖两项、教育部科技进步一等奖、中科院首届优秀博士论文奖、北京市科技新星、中科院 “卢嘉锡青年人才奖”、福建省 “闽江学者” 讲座教授。其研究领域为人工智能、脑 - 机接口、医学影像分析等。近五年来，在 IEEE TPAMI/TNNLS、ICML 等期刊和会议上发表文章 80 余篇。他是 IEEEE TCDS、《自动化学报》等期刊编委，CCF 杰出会员，CSIG 杰出会员。

自动化所多模 style span text-align 人工智能新闻模型解码

有关无创解码大脑信号语义，中科院自动化所研发脑-图-文多模态学习模型的更多相关文章

LC滤波器设计学习笔记（一）滤波电路入门 - 2
目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》，侵权删。前言最近需要学习放大电路和滤波电路，但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放，所以也是相当从零开始学习了。滤波电路科普主要分类滤波器：主要是从不同频率的成分中提取出特定频率的信号。有源滤波器：由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波，最普通易于采用的无源滤波器结构是将电感与电容串联，可对主要次谐波（3、5、7）构成低阻抗旁路。无源滤波器：无源滤波器，又称
CAN协议的学习与理解 - 2
最近在学习CAN，记录一下，也供大家参考交流。推荐几个我觉得很好的CAN学习，本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门，真的通透；秀！靠这篇我竟然2天理解了CAN协议！实战STM32F4CAN！原文链接：https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解（小白教程）原文链接：https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总
深度学习部署：Windows安装pycocotools报错解决方法 - 2
深度学习部署：Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯：公主号AiCharm本系列是作者在跑一些深度学习实例时，遇到的各种各样的问题及解决办法，希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal
ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗？ - 2
我完全不是程序员，正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3，但我想知道我是否应该升级到Ruby1.9，因为我真的没有任何升级的“遗留”成本。缺点是什么？我是否会遇到与普通gem的兼容性问题，或者甚至其他我不太了解甚至无法预料的问题？最佳答案你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem，请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问，您可以在以下位置查看:http://www.railsplugins.or
ruby - 我如何学习 ruby 的正则表达式？ - 2
如何学习ruby的正则表达式？(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具，因为它可以立即将结果可视化。关于ruby-我如何学习ruby的正则表达式？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1881231/
深度学习12. CNN经典网络 VGG16 - 2
深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG（VisualGeometryGroup）是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军，定位竞赛冠军；VGG网络采用连续的小卷积核（3x3）和池化层构建深度神经网络，网络深度可以达到16层或19层，其中VGG16和VGG
机器学习——时间序列ARIMA模型(四)：自相关函数ACF和偏自相关函数PACF用于判断ARIMA模型中p、q参数取值 - 2
文章目录1、自相关函数ACF2、偏自相关函数PACF3、ARIMA(p,d,q)的阶数判断4、代码实现1、引入所需依赖2、数据读取与处理3、一阶差分与绘图4、ACF5、PACF1、自相关函数ACF自相关函数反映了同一序列在不同时序的取值之间的相关性。公式：ACF(k)=ρk=Cov(yt,yt−k)Var(yt)ACF(k)=\rho_{k}=\frac{Cov(y_{t},y_{t-k})}{Var(y_{t})}ACF(k)=ρk=Var(yt)Cov(yt,yt−k)其中分子用于求协方差矩阵，分母用于计算样本方差。求出的ACF值为[-1,1]。但对于一个平稳的AR模型，求出其滞
Unity Shader 学习笔记（5）Shader变体、Shader属性定义技巧、自定义材质面板 - 2
写在之前Shader变体、Shader属性定义技巧、自定义材质面板，这三个知识点任何一个单拿出来都是一套知识体系，不能一概而论，本文章目的在于将学习和实际工作中遇见的问题进行总结，类似于网络笔记之用，方便后续回顾查看，如有以偏概全、不祥不尽之处，还望海涵。1、Shader变体先看一段代码......Properties{ [KeywordEnum(on,off)]USL_USE_COL("IsUseColorMixTex?",int)=0 [Toggle(IS_RED_ON)]_IsRed("IsRed?",int)=0}......//中间省略，后续会有完整代码 #pragmamulti_c
Verilog使用inout信号的方法 - 2
目录一、inout在设计文件中的使用方法1.1、inout的第一种使用方法1.2、inout实现的第二种使用方法1.3、inout使用总结二、inout在仿真测试中的使用方法一、inout在设计文件中的使用方法在FPGA的设计过程中，有时候会遇到双向信号(既能作为输出，也能作为输入的信号叫双向信号)。比如，IIC总线中的SDA信号就是一个双向信号，QSPIFlash的四线操作的时候四根信号线均为双向信号。在Verilog中用关键字inout定义双向信号，这里总结一下双向信号的处理方法。1.1、inout的第一种使用方法　　实际上，双向信号的本质是由一个三态门组成的，三态门可以输出高电平，低电
ruby-on-rails - 这个 C 和 PHP 程序员如何学习 Ruby 和 Rails？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我来自C、php和bash背景，很容易学习，因为它们都有相同的C结构，我可以将其与我已经知道的联系起来。然后2年前我学了Python并且学得很好，Python对我来说比Ruby更容易学。然后从去年开始，我一直在尝试学习Ruby，然后是Rails，我承认，直到现在我还是学不会，讽刺的是那些打着简单易学的烙印，但是对于我这样一个老练的程序员来说，我只是无法将它