离视觉大一统更近一步：分割一切之后，Meta又开源一组多用途大模型

机器之心 2023-12-18 原文

在开源了「分割一切」的 SAM 模型后，Meta 在「视觉基础模型」的路上越走越远。

这次，他们开源的是一组名叫 DINOv2 的模型。这些模型能产生高性能的视觉表征，无需微调就能用于分类、分割、图像检索、深度估计等下游任务。

这组模型具有如下特征：

使用自监督的方式进行训练，而不需要大量的标记数据；
可以用作几乎所有 CV 任务的骨干，不需要微调，如图像分类、分割、图像检索和深度估计；
直接从图像中学习特征，而不依赖文本描述，这可以使模型更好地理解局部信息；
可以从任何图像集合中学习；
DINOv2 的预训练版本已经可用，并可以在一系列任务上媲美 CLIP 和 OpenCLIP。

论文链接：https://arxiv.org/pdf/2304.07193.pdf
项目链接：https://dinov2.metademolab.com/

论文概览

学习非特定任务的预训练表示已成为自然语言处理的标准。大家可以「按原样」使用这些功能（无需微调），并且它们在下游任务上的表现明显优于特定任务模型的性能。这一成功得益于使用辅助目标对大量原始文本进行预训练，例如语言建模或词向量，这些不需要监督。

随着 NLP 领域发生这种范式转变，预计类似的「基础」模型将出现在计算机视觉中。这些模型应该生成在任何任务上「开箱即用」的视觉特征，无论是在图像级别（例如图像分类）还是像素级别（例如分割）。

这些基础模型有很大希望可以集中在文本引导（text-guided）的预训练上，即使用一种文本监督的形式来指导特征的训练。这种形式的文本引导预训练限制了可以保留的有关图像的信息，因为标题仅近似于图像中的丰富信息，并且更精细、复杂的像素级信息可能无法通过此监督被发现。此外，这些图像编码器需要已经对齐好的文本 - 图像语料库，不能提供其文本对应物的灵活性，也就是说不能仅从原始数据中学习。

文本引导预训练的替代方法是自监督学习，其中特征仅从图像中学习。这些方法在概念上更接近语言建模等前置任务，并且可以在图像和像素级别捕获信息。然而，尽管它们有可能去学习通用特征，但自监督学习的大部分效果提升都是在小型精编数据集 ImageNet1k 的预训练背景下取得的。一些研究人员已经尝试将这些方法扩展到 ImageNet-1k 之外的一些努力，但他们专注于未经筛选的数据集，这通常会导致性能质量显着下降。这是由于缺乏对数据质量和多样性的控制，而数据质量和多样性对于产生良好的结果至关重要。

在这项工作中，研究者探讨了如果在大量精编数据上进行预训练，自监督学习是否有可能去学习通用的视觉特征。它们重新审视了现有的在图像和 patch 级别学习特征的判别性自监督方法，例如 iBOT，并在更大数据集下重新考虑他们的一些设计选择。研究者的大多数技术贡献都是为了在扩展模型和数据大小时稳定和加速判别性自监督学习而量身定制的。这些改进使他们方法的速度提升到了类似的判别性自监督方法的 2 倍左右，需要的内存减少到了后者的 1/3，使他们能够利用更长的训练和更大的 batch size。

关于预训练数据，他们构建了一个自动 pipeline ，用于从大量未经筛选的图像集合中过滤和重新平衡数据集。这个灵感来自 NLP 中使用的 pipeline ，其中使用数据相似性而不是外部元数据，并且不需要手动注释。在处理图像时的一个主要困难是重新平衡概念并且要避免在一些主导模式下出现过拟合。在这项工作中，朴素聚类方法可以很好地解决此问题，研究人员们收集了一个由 142M 图像组成的小而多样化的语料库来验证他们的方法。

最后，研究者们提供了各种预训练的视觉模型，称为 DINOv2，在他们的数据上使用不同的视觉 Transformer（ViT）架构进行训练。他们发布了所有模型和代码，以在任何数据上重新训练 DINOv2。在扩展时，他们在图像和像素级别的各种计算机视觉基准测试上验证了 DINOv2 的质量，如图 2 所示。最后研究者们得出结论，单独的自监督预训练是学习可迁移冻结特征的良好候选者，可媲美最好的公开可用的弱监督模型。

数据处理

研究者通过从大量未筛选的数据中检索与多个精编数据集中的图像接近的图像来组装他们的精编 LVD-142M 数据集。他们在论文中介绍了数据管道中的主要组成部分，包括精选 / 未筛选的数据源、图像重复数据删除步骤和检索系统。整条 pipeline 不需要任何元数据或文本，直接处理图像，如图 3 所示。请读者参阅附录 A，了解有关模型方法的更多详细信息。

图 3：数据处理的 pipeline 概述。来自精编和非精编的数据源的图像首先被映射到嵌入。然后，非精编的图像在与标准图像匹配之前对重复数据删除。由此产生的组合通过自监督检索系统进一步丰富扩充了初始数据集。

判别性自监督预训练

研究人员通过一种判别性的自监督方法学习他们的特征，该方法可以看作是 DINO 和 iBOT 损失的结合，并以 SwAV 为中心。他们还添加了一个正则化器来传播特征和一个简短的高分辨率训练阶段。

高效实现

他们考虑了几项改进，以在更大范围内训练模型。使用 PyTorch 2.0 在 A100 GPU 上训练模型，该代码也可与用于特征提取的预训练模型一起使用。模型的详细信息在附录表 17 中。在相同的硬件下，与 iBOT 实现相比，DINOv2 代码仅使用 1/3 的内存，运行速度提高到了前者的 2 倍。

实验结果

在本节中，研究者将介绍新模型在许多图像理解任务上的实证评估。他们评估了全局和局部图像表示，包括类别和实例级识别、语义分割、单目深度预测和动作识别。

ImageNet 分类

其他图像和视频分类基准

实例识别

密集识别任务

定性结果

大一统大一 style text-align align 人工智能新闻视觉任务

有关离视觉大一统更近一步：分割一切之后，Meta又开源一组多用途大模型的更多相关文章

ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - 结合 meta_search 与 acts_as_taggable_on - 2
我在开发的Rails3网站的一些搜索功能上遇到了一个小问题。我有一个简单的Post模型，如下所示:classPost我正在使用acts_as_taggable_on来更轻松地向我的帖子添加标签。当我有一个标记为“rails”的帖子并执行以下操作时，一切正常:@posts=Post.tagged_with("rails")问题是，我还想搜索帖子的标题。当我有一篇标题为“Helloworld”并标记为“rails”的帖子时，我希望能够通过搜索“hello”或“rails”来找到这篇帖子。因此，我希望标题列的LIKE语句与acts_as_taggable_on提供的tagged_with方法
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs
ruby-on-rails - Rails - 从另一个模型中创建一个模型的实例 - 2
我有一个正在构建的应用程序，我需要一个模型来创建另一个模型的实例。我希望每辆车都有4个轮胎。汽车模型classCar轮胎模型classTire但是，在make_tires内部有一个错误，如果我为Tire尝试它，则没有用于创建或新建的activerecord方法。当我检查轮胎时，它没有这些方法。我该如何补救？错误是这样的:未定义的方法'create'forActiveRecord::AttributeMethods::Serialization::Tire::Module我测试了两个环境:测试和开发，它们都因相同的错误而失败。最佳答案
ruby-on-rails - Ruby 中的内存模型 - 2
ruby如何管理内存。例如:如果我们在执行过程中采用C程序，则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序