【笔记】李沐视频：大模型时代下做科研的四个思路

bringlu 2023-03-28 原文

LLaMA 最近开源，分别开源了 7e9, 1.3e10, 3.3e10, 6.5e10 四个参数量的模型。但是这里有意思的是，他们管自己的模型称为 smaller models。

Google 推出了 22B 的 ViT

1. Efficient（PEFT）

简要概括

更高效，哪里慢就让它快起来

让所有的方法更 efficient 一些。

论文 1：AIM

论文：AIM: Adapting Image Models for Efficient Video Action Recognition

如何使用 parameter efficient fine-tuning

本篇是做视频动作识别（视频理解）

摘要、介绍、相关工作、结论

之前的视频理解的工作，粗略地可以被分为两类：

时间上和空间上地处理尽量分开
时间上和空间上一起做

比如这里的左图，先预训练好一个图片模型，接下来地步骤大致分为：

在已经与训练好的图片模型之上，单独地增加一个时序处理地模块
3D 网络，时间空间特征一起学

虽然效果很好，但是计算代价实在太大，这些模型都需要 Full Fine Tune，尤其是视频数据集非常大的时候很难受。

本文研究动机来自于 CLIP，证明了它自己即使直接 zero-shot 就会很好，而且它也说明了在视频方面的任务上：

训练的很好的图像模型可以直接拉过来，且越来越具有泛化性，因此可能不需要 finetune 的部分了。
防止灾难性遗忘，如果有一个大模型，下游没有很好的数据集（或者说没有很多的数据），硬要 finetune 这个大模型的话，往往会做不好。

于是本文拿到一个好的图像模型后，直接把其参数锁住。然后通过修改周边的方式，来让这个模型具备时序建模的能力，来让这个模型能够直接做视频理解任务。

而 PEFT 有两个简单的方式：

Adapter
prompt tuning

Adapter

Adapter 论文：Parameter-Efficient Transfer Learning for NLP

Adapter Layer 结构

下采样的 FC 层
非线性激活层
上采样的 FC 层
最后还有一个 residual connection

它是把 Adapter 可以随意地插入 TFM block 中，然后锁住原 TFM 的参数，只训练 Adapter。

这样由于 Adapter 相比 TFM 参数量很小，因此不是特别大。

Prompt tuning

Prompt tuning 方法简单地讲，就是给模型一个提示，让模型做要做的事。

Prompt tuning 论文：Learning to Prompt for Vision-Language Models

hard prompt（手工 prompt）：由于手工写的 prompt 一旦写出来就写死了，这会隐含一个先验知识，可能会对最后的效果产生影响。比如上图中前三个蓝色的部分。
soft prompt：让论文自己学习 prompt。比如上图中绿色的部分。

上面是文本的分支，和预测的 [CLASS] 一起进入文本编码器，得到文本的特征。

下面图片进入图片编码器，得到一个图像特征。然后这一个图像特征和文本特征做相似度，看哪个最高选哪个。

这里和 CLIP 的区别在于：prompt 变成了一个可以学习的上下文。

通过这种方式把原来的模型锁住，只学习 prompt，减少计算量。

纯视觉也可以用 prompt，例如论文：Visual Prompt Tuning

上图是 Visual Prompt Tuning 模型的总览图。

首先有个输入（图片），和一些已经训练好并被冻结的层。
接下来开始加 prompt。这个 prompt 加在前面。
图片打成 patch 后先通过 embedding 层。然后和学习的 prompt 一起丢尽模型里
然后整个模型只优化 prompt 这个 \(P_0\)

VPT deep 的意思是说，每一层的输入输出的时候，都加上 learnable 的 prompt。

Deep 的效果比 Shallow 要好一些，这俩都比不用 prompt 要好。

方法

模型

作者都认为自己的方法简单。

主要思路就是锁住模型参数，然后往模型里加 Adapter。

有三种方式进行修改：

Spatial Adaptation：别的都锁住，只在 Self-Attention 后面加一层 Adapter。
- 作者认为，意义在于：
  - 不给其添加什么视频理解的能力以及时序建模的能力
  - 只给它加一些可以学习的参数，看看它能不能从图像学习到的特征迁移到视频数据集来。
  - 看看能不能解决领域之间有差距的问题。
- 后面其实这个方法已经有用了，但是缺少了时序建模的能力，效果不尽如人意，比不上之前 full finetune 的模型。
Temporal Adaptation：
- 做了修改有：
  - 两个 self-attention 加一个 MLP
  - 两个 attention 参数一样
  - 第一个 T attention 输入的矩阵先 reshape 一下，维度为 \((N+1) \times T \times D\)，是在时序这个维度上做自注意力
  - 第二个 S attention 输入的矩阵再 reshape 回来，维度为 \(T \times (N + 1) \times D\)，在 sequence length 的维度上做自注意力
- 这里有个问题，层的参数是锁住的，那么怎么确保一个学 spatial 另一个学 temporal 呢？
  - 于是在 T attention 后面加了一个 adapter，S attention 后面也加了一个
  - 这样就有两套可以学习的参数
- 于是这样可以达到 full finetune 的模型，甚至超越
Joint Adaptation
- 修改：
  - 在 MLP 旁边加上了 Adapter
- 目的：
  - 希望最后做一层 Spatial Temporal
  - 希望三个 Adapter 各司其职，各自学各自该学的
- 最后这个模型结构其实就是 AIM 了。

实验

TimesFormer 做 baseline，跟 AIM 结果也很相近。

Frozen space-only：也是常说的 LinearProbe，整个 backbone 锁住，只去 tune 最后的 head。
Finetuned space-only：正常的模型 Finetune
Finetuned space-time：TimesFormer 本身，是一个 Video 的 FullFineTuning 的过程
Frozen space-only + spatial adaptation：加上了 spatial adaptation 后，可以发现和 Finetuned space-only 差不多，但是训练参数量只有 3.7 M
Frozen space-only + temporal adaptation：加上 temporal adaptation 后，效果直接翻一倍
- 这里超过了 FullFinetune 的模型
Frozen space-only + joint adaptation adaptation：还能再提升一点点
AIM：再把预训练模型从 IN-21K 换成 CLIP，于是还有提升

上表是在 AIM 在 K400 数据集上的表现。比之前的方法要高。

上表是 AIM 在 Something-Something 数据集、K700 数据集和 Diving-48 数据集上的表现。

Something-Something
- 表现不是最好的
  - 可能数据集更加 Temporal Heavy，更注重时序信息，而且很细粒度
- 但也很有竞争力
剩下两个数据集都取得了大于等于 SOTA 的结果。

大部分实验都是一台 8 卡机能完成的，短则半天，长则三四天。

2. Existing stuff (pretrained model) New directions

简要概括

能不 pretraining 就不 pretraining

能借助已有的东西，就尽量借助已有的东西，例如别人的预训练模型。

没有足够多的资源，尽量不要去碰 pretraining，可选项：Zero-show、Few-show、FineTuning，所需资源从左到右上升
或者做新方向，这里可能没有成熟的数据集和 Benchmark，因此数据和 Setting 都可以自己选
找不到新方向的话，专心提高自己的方法

简单给几个新的 topic：

Causality Learning：因果学习
Feed forward Network（为什么这个是新方向？）
In-Context Learning：nlp 领域的
Chain-of-thought prompting

论文2：使用自监督的目标中心表示的无监督语义分割

论文：Unsupervised Semantic Segmentation with Self-supervised Object-centric Representations

做的是 Unsupervised Semantic segmentation

具体使用的方法是 Self-supervised Object-Centric Representations

用已经预训练好的 DINO 网络和之前预训练好的 DeepUSP 和 BASNet 这些网络，这些抽特征的网络都是与训练好的。
Object-Centric Learning：一个正在蓬勃发展的 topic

训练开销很小，只是训练了一个 DeepLab v3 的一个网络，4 卡机就能跑大部分实验

摘要、介绍、相关工作、结论

方法

主要流程在 Unsupervised Object Categories Discovery 这一步。这一步是让模型在无监督的情况下找到新的物体。

直接通过一个图片抽一个特征其实不太合理
- 所以有人觉得 Object 的 learning 会比 global 的更有效。
如果还能 Unsupervised，会更完美
- 这里是人为设计了 label 或者任务然后去学习。

如果想学习一个 Segmentation 的网络，那么需要某种程度上的 Mask information。

那么最初始的 Mask information 从哪来？于是借助之前 Saliency Detection（显著性检测）的工作，比如这里直接用了 DeepUSPS 的工作，很多之前无监督 Segmentation 工作用的也是它。就可以直接给定一张图，给你显著物体的 mask。然后就可以借助这个 mask 把图片中的物体给抠出来。

把它检测出来后，还需要分类，接下来借助 DINO 这个工作去抽它的特征。

有了特征然后做聚类（Clustering），然后就能无监督地判断物体是什么 id，暂时还无法确定这些物体是什么，因此这里称作 Noisy pseudo masks。

于是这里有了图像和 label，于是就可以无监督训练了。另外一个图片可能有多个物体，所以加一个 self-training，多做几个轮回。

实验

超越了之前的 SOTA

其实也就只有 Semantic segmentation network 训练需要时间。

3. Plug-and-Play

简要概括

做通用的，能够即插即用的模块，它可能是：

一种新的模型模块
目标函数，一种新的 loss
一种 data augmentation（数据增强）的方法

总之就是一个很简单的东西，但是能够用到各种领域的。

好处在于，只要选一个比较好用的 baseline，然后在一个所能承受的 setting 之下，做实验。

这样公平对比，可以说明你的方法的有效性。
不需要证明你这个能达到 SOTA，可以刷榜
只需要在很多方法上或很多数据集上都有提升即可

论文3：MixGen

论文：MixGen: A New Multi-Modal Data Augmentation

摘要、介绍、相关工作、结论

本文主要提出了一种多模态的数据增强的方法。

在研究多模态模型的时候，发现它们都没有使用数据增强。

比如 CLIP 只用了基础的数据增强方法 Random Resized Crop
- 因为图片文本对太多，所以不需要数据增强
ALBEF 和 BLIP，虽然用了很好的数据增强，比如 Auto Augment，但是把 Color Jittering 和 Random Flip 去掉了
- 原因是如果修改了 Color，那么文本中颜色的描述就错了
- 如果 Flip，那么文本中的方位词描述就错了

CV 领域中觉得数据增强还是很必要的。

也就是说在数据增强的过程中，有一些信息被破坏，或者说是丢弃掉了。

那么怎么办呢？可以一个模态一个模态来想。

图像
- Mixup：把两张图片线性地插值到一起，虽然人眼看起来比较诡异，但是信息没有丢失
文本
- Mixup
- Random erasing
- Random Insertion
- Back Translation

但是文本部分其实可以直接把两个句子拼在一起就行，这样什么信息也不会丢失。

方法

比如说上图有 \((I_1, T_1), (I_2,T_2)\) 这两个图片文本对，那么我们把两个图像直接 Mixup，然后文本把两句话拼起来。

实验

可以观察到相比于原来的方法有普遍的提升。

一些缺陷

投 NeuIPS 的时候，审稿人一致认为这个方法太简单了，有一个审稿人提出了建设性的意见：数据增强是在没有那么多数据的时候才会去做的选择，但是在多模态的预训练里面，由于已经有大量的数据存在，所以预训练过程没什么用。但是在 Finetuning 过程中，由于下游数据集的数据不多，因此这个方法大概可以应用于 Finetuning 过程中。

4. Dataset, evaluation and survey

简要概括

构造数据集
做分析评估
写综述

这个方向最不需要计算资源，同样很有影响力。

论文4：BigDetection

论文：BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training

这是一个非常大的目标检测的数据集。本论文是把 LVIS，OpenImages 和 Object 365 结合到了一起。需要重新分布数据里的类。而且根据任务的需求，也决定了物体类别有多细粒度。

600 类、3.4e6 的训练图片，且有 3.6e7 的目标检测框及注释。

由于数据集很新，刷的人很少，如果感兴趣的话，朱老师给出如下提议：

OOD 的分析
鲁棒性分析
fewshot、zeroshot 分析
测评

论文5：深度视频动作识别的可理解学习

论文：A Comprehensive Study of Deep Video Action Recognition

写的综述论文，理解优点缺点在哪，以及分析当前的痛点。然后找到下一步的发展方向。

主要考验写作能力
还考验你对问题的理解深度

科研笔记 li ul 1928412 人工智能

有关【笔记】李沐视频：大模型时代下做科研的四个思路的更多相关文章

ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案
ruby-on-rails - Ruby 中的内存模型 - 2
ruby如何管理内存。例如:如果我们在执行过程中采用C程序，则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序
ruby-on-rails - Rails 3.1 中具有相同形式的多个模型？ - 2
我正在使用Rails3.1并在一个论坛上工作。我有一个名为Topic的模型，每个模型都有许多Post。当用户创建新主题时，他们也应该创建第一个Post。但是，我不确定如何以相同的形式执行此操作。这是我的代码:classTopic:destroyaccepts_nested_attributes_for:postsvalidates_presence_of:titleendclassPost...但这似乎不起作用。有什么想法吗？谢谢! 最佳答案 @Pablo的回答似乎有你需要的一切。但更具体地说...首先改变你View中的这一行对此#

【笔记】李沐视频：大模型时代下做科研的四个思路

1. Efficient（PEFT）

简要概括

论文 1：AIM

摘要、介绍、相关工作、结论

Adapter

Prompt tuning

方法

模型

实验

2. Existing stuff (pretrained model) New directions

简要概括

论文2：使用自监督的目标中心表示的无监督语义分割

摘要、介绍、相关工作、结论

方法

实验

3. Plug-and-Play

简要概括

论文3：MixGen

摘要、介绍、相关工作、结论

方法

实验

一些缺陷

4. Dataset, evaluation and survey

简要概括

论文4：BigDetection

论文5： 深度视频动作识别的可理解学习

有关【笔记】李沐视频：大模型时代下做科研的四个思路的更多相关文章

随机推荐

论文5：深度视频动作识别的可理解学习