草庐IT

刷论文的感觉太棒了!(对比学习 / CLIP改进 / 视频理解)

贪钱算法还我头发 2023-09-30 原文

😍😍😍更多精彩福利😍😍😍

1. 对比学习论文总结

学习视频:

阶段代表工作
百花齐放(18-19中)Inst Disc: memory Bank, 每张图都是一个类别(个体判别)Inva Spread: end-to-end, 在同一mini-batch中选正负样本CPC V1:用预测未来的代理任务做对比学习CMC:增大同一物体不同视角的互信息Deep cluster
CV双雄(19-20中)MoCo V1: queue + momentum encoderSimCLR V1: MLP(projection head) + 数据增强CPC V2Infomin
不用负样本MoCo V2: V1 + MLP + aug + 增大epochSimCLR V2: large, 2层MLP, momentum encoderSwav: multi-crop, 图片一个视角预测另一个视角,和聚类中心比
TransformerMoCo V3: V2 + SimSiamBYOL(匹配->预测) =》BN Blog =》BYOL V2
BYOL =》Sim Siam(stop gradient) =》DINO

2. CLIP改进论文总结

学习视频:

领域代表工作
语义分割Lseg: Language Driven Semantic Segnatation: zero-shot CLIP, dense feature, image encoder: DPT (ViT + decoder), supervise learning(依赖mask手工标注)目标函数非对比学习
GroupVit: Semantic Segmentation Energes from Text Supervision: ViT + group block + group tokens(hpy聚类中心)
目标检测Open-Vocabulary ViLD: CLIP的预训练image encoder作为teacher学习image embedding对比
GLIP:Grounded Language-Image Pre-traing: 伪标签, phrase grounding
图形学CLIPasso: saliency initial, semantic loss + geometric loss
视频图文检索 CLIP4Clip: 时序图像文本融合:mean pooling效果最好; Transformer/LSTM; early fusion(tight)效果差
动作识别 ActionCLIP:temporal shift module
图像文本CLIP-ViL 用回图像文本下游任务
语音AudioCLIP
三维PointCLIP depthCLIP
CLIP改进工作可以总结为三类:
    1. 直接使用CLIP预训练模型得到更好的特征和现有框架得到特征进行融合(改动最小)
    2. CLIP当做teacher,将其训练得到的特征用来蒸馏,加速现有模型训练(中间)
    3. 借鉴多模态对比学习思想,定义自己任务的正负样本计算对比loss,实现zero-shot

3. 视频理解论文总结

学习视频:

传统手工特征方法:
(image) SIFT -> (Video) STIP -> (光流) DT/IDT -> (全局特征) IDT + FV

深度学习方法:

方法代表工作
CNNDeepVideo(CVPR2014): Sports 1M Datasets, 失败的尝试
Two-StreamTwo-Stream(nureons2014): Spatial stream + Temporal stream late fusion
TDD(CVPR2015): 手工IDT+沿轨迹堆叠光流
Beyond Short Snippet(CVPR2015): 使用LSTM增强特征,实际上最后一层+LSTM没那么有用(帧短抽到的特征差不多)
Conv Two-Stream(CVPR2016): early fusion, Spatial fusion(max/concat/stack Conv(效果最好)/sum/bilinear), Temporal fusion(3D Pooling/3D Conv + 3D Pooling)
王利民TSN(ECCV2016): 长时间视频理解, 给视频分段后结果求共识
    tips1: 使用ImageNet预训练光流, 复制参数为目标channel来初始化
    tips2: partial BN, 第一层使用BN, 其余层freeze BN
    tips3: 数据增强, conner cropping = scale jittering
TSN+全局建模
DOVF(CVPR2017): face rencting encoding
TLE(CVPR2017): end-to-end, bi-linearing encoding
ActionVLAN: VLAN
3D ConvC3D(ICCV2015): 3D版VGG, 网络深, 提供一个好特征可以做下游任务
I3D(CVPR2017): 利用2D预训练模型, 同时使用光流刷爆UCF101, 证明2D向3D迁移的有效性
Non-local NN: 使用plug and play(即插即用)的non-local block(self-attention)长时间建模,验证了多block效果更好/td>
R(2+1)D(CVPR2018): 3D拆成空间2D+时间1D(二者利用特征投射融合), 训练简单效果好
SlowFast: Slow(标准I3D)少帧小输入大网络 + Fast多帧大输入小网络 later connection, Fast时间维度不下采样
Hidden Two-Stream: 将光流学习融入网络,不需要抽光流
TSM(ICCV2019): shift 2D网络
总结: 由于抽光流耗时且占内存,兴起了3D Conv, 从C3D到I3D, 之后的演变主要为四方面:
    1. 改进2D网络: R3D, MFNet, STC
    2. 2D结合3D:S3D, R(2+1)D, ECO, D3D
    3. 长时序处理:LTC, T3D, non-local, V4D
    4. 高效率:CSN, SlowFast, X3D
Vision TransformerTimesformer: Space-Time Attention降低复杂度: Divided ST A; Sparse Local Global A; Axial A(T+W+H)
ViViT, VidTr, MViT...

有关刷论文的感觉太棒了!(对比学习 / CLIP改进 / 视频理解)的更多相关文章

  1. LC滤波器设计学习笔记(一)滤波电路入门 - 2

    目录前言滤波电路科普主要分类实际情况单位的概念常用评价参数函数型滤波器简单分析滤波电路构成低通滤波器RC低通滤波器RL低通滤波器高通滤波器RC高通滤波器RL高通滤波器部分摘自《LC滤波器设计与制作》,侵权删。前言最近需要学习放大电路和滤波电路,但是由于只在之前做音乐频谱分析仪的时候简单了解过一点点运放,所以也是相当从零开始学习了。滤波电路科普主要分类滤波器:主要是从不同频率的成分中提取出特定频率的信号。有源滤波器:由RC元件与运算放大器组成的滤波器。可滤除某一次或多次谐波,最普通易于采用的无源滤波器结构是将电感与电容串联,可对主要次谐波(3、5、7)构成低阻抗旁路。无源滤波器:无源滤波器,又称

  2. CAN协议的学习与理解 - 2

    最近在学习CAN,记录一下,也供大家参考交流。推荐几个我觉得很好的CAN学习,本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门,真的通透;秀!靠这篇我竟然2天理解了CAN协议!实战STM32F4CAN!原文链接:https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解(小白教程)原文链接:https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总

  3. 深度学习部署:Windows安装pycocotools报错解决方法 - 2

    深度学习部署:Windows安装pycocotools报错解决方法1.pycocotools库的简介2.pycocotools安装的坑3.解决办法更多Ai资讯:公主号AiCharm本系列是作者在跑一些深度学习实例时,遇到的各种各样的问题及解决办法,希望能够帮助到大家。ERROR:Commanderroredoutwithexitstatus1:'D:\Anaconda3\python.exe'-u-c'importsys,setuptools,tokenize;sys.argv[0]='"'"'C:\\Users\\46653\\AppData\\Local\\Temp\\pip-instal

  4. 动漫制作技巧如何制作动漫视频 - 2

    动漫制作技巧是很多新人想了解的问题,今天小编就来解答与大家分享一下动漫制作流程,为了帮助有兴趣的同学理解,大多数人会选择动漫培训机构,那么今天小编就带大家来看看动漫制作要掌握哪些技巧?一、动漫作品首先完成草图设计和原型制作。设计草图要有目的、有对象、有步骤、要形象、要简单、符合实际。设计图要一致性,以保证制作的顺利进行。二、原型制作是根据设计图纸和制作材料,可以是手绘也可以是3d软件创建。在此步骤中,要注意的问题是色彩和平面布局。三、动漫制作制作完成后,加工成型。完成不同的表现形式后,就要对设计稿进行加工处理,使加工的难易度降低,并得到一些基本准确的概念,以便于后续的大样、准确的尺寸制定。四、

  5. python ffmpeg 使用 pyav 转换 一组图像 到 视频 - 2

    2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p

  6. TimeSformer:抛弃CNN的Transformer视频理解框架 - 2

    Transformers开始在视频识别领域的“猪突猛进”,各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解,本篇主要介绍了FBAI团队的TimeSformer,这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用,就请点赞、收藏、关注!paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图

  7. ruby - 易于初学者理解的 Ruby 库 - 2

    关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭3年前。Improvethisquestion我正处于学习Ruby的阶段,我想查看一些小型库的源代码以了解它们是如何构建的。我不知道什么是小型图书馆,但希望SO能推荐一些易于理解的图书馆来学习。因此,如果有人知道一两个非常小的库,这是新手Rubyists学习的好例子,请推荐!我想使用Manveru'sInnatelib,因为它试图保持在2000LOC以下,但我还不熟悉其中经常使用的Ruby速记。也许大约100-5

  8. ruby - 我正在学习编程并选择了 Ruby。我应该升级到 Ruby 1.9 吗? - 2

    我完全不是程序员,正在学习使用Ruby和Rails框架进行编程。我目前正在使用Ruby1.8.7和Rails3.0.3,但我想知道我是否应该升级到Ruby1.9,因为我真的没有任何升级的“遗留”成本。缺点是什么?我是否会遇到与普通gem的兼容性问题,或者甚至其他我不太了解甚至无法预料的问题? 最佳答案 你应该升级。不要坚持从1.8.7开始。如果您发现不支持1.9.2的gem,请避免使用它们(因为它们很可能不被维护)。如果您对gem是否兼容1.9.2有任何疑问,您可以在以下位置查看:http://www.railsplugins.or

  9. ruby - 无法理解 `puts{}.class` 和 `puts({}.class)` 之间的区别 - 2

    由于匿名block和散列block看起来大致相同。我正在玩它。我做了一些严肃的观察,如下所示:{}.class#=>Hash好的,这很酷。空block被视为Hash。print{}.class#=>NilClassputs{}.class#=>NilClass为什么上面的代码和NilClass一样,下面的代码又显示了Hash?puts({}.class)#Hash#=>nilprint({}.class)#Hash=>nil谁能帮我理解上面发生了什么?我完全不同意@Lindydancer的观点你如何解释下面几行:print{}.class#NilClassprint[].class#A

  10. ruby - 我如何学习 ruby​​ 的正则表达式? - 2

    如何学习ruby​​的正则表达式?(对于假人) 最佳答案 http://www.rubular.com/在Ruby中使用正则表达式时是一个很棒的工具,因为它可以立即将结果可视化。 关于ruby-我如何学习ruby​​的正则表达式?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/1881231/

随机推荐