监督_草庐IT

ESimCSE：无监督语义新SOTA，引入动量对比学习扩展负样本，效果远超SimCSE

作者|对白出品|对白的算法屋编者寄语：本文看完，相信你会掌握这个无监督语义新SOTA模型ESimCSE。从论文标题中可以看出，应该是对4月份丹琦女神发表的新作SimCSE的增强版（Enhance），并且也用到了对比学习来构建正负样本，那么效果是否优于SimCSE呢？抱着这个好奇的心态，于是完整的读了一遍该论文。好家伙！在语义文本相似性（STS）任务上效果竟然还真的优于BERTbase版的SimCSE有2个点（Spearman相关系数），并且提出了两大优化方法，解决了SimCSE遗留的两个问题：1、SimCSE通过dropout构建的正例对包含相同长度的信息（原因：Transformer的Pos

用活人脑细胞造AI系统！语音识别已成功，可无监督学习

由真实人脑细胞构建的“迷你大脑”和微电极组成的AI系统，已经能够进行语音识别——从数百个声音片段中准确认出某个特定人的声音的那种。最近，一项颇为前沿的类脑研究登上了Nature子刊。这个特别的AI系统甚至可以进行无监督学习：研究人员只是一遍遍播放音频片段，不提供任何形式的反馈来告诉系统答对还是错。最终，该系统在两天的训练之后，准确率直接从最初的51%升到了78%。这，究竟是怎么实现的？类器官神经网络来了发明该系统的主要目的，是解决硅芯片的高能耗等问题。一般来说，这个问题的解题思路都是靠类脑计算。但这种思想下设计的“传统”类脑芯片大多数都是直接基于数字电子原理，完全模仿大脑功能的能力着实有限。在

RC-MVSNet：无监督的多视角立体视觉与神经渲染--论文笔记（2022年）

RC-MVSNet：无监督的多视角立体视觉与神经渲染--论文笔记（2022年）摘要1引言2相关工作2.1基于监督的MVS2.2无监督和自监督MVS2.3多视图神经渲染3实现方法3.1无监督的MVS网络3.2参考试图合成3.3深度渲染一致性3.4端到端网络优化4实验分析4.1数据集4.2实施细节4.3在测试集上的性能4.4消融实验5总结Chang,D.etal.(2022).RC-MVSNet:UnsupervisedMulti-ViewStereowithNeuralRendering.In:Avidan,S.,Brostow,G.,Cissé,M.,Farinella,G.M.,Hassne

机器学习之无监督学习：九大聚类算法

今天，和大家分享一下机器学习之无监督学习中的常见的聚类方法。在无监督学习中，我们的数据并不带有任何标签，因此在无监督学习中要做的就是将这一系列无标签的数据输入到算法中，然后让算法找到一些隐含在数据中的结构，通过下图中的数据，可以找到的一个结构就是数据集中的点可以分成两组分开的点集（簇），能够圈出这些簇（cluster）的算法，就叫做聚类算法（clusteringalgorithm）。聚类算法的应用市场分割：将数据库中客户的信息根据市场进行不同的分组，从而实现对其分别销售或者根据不同的市场进行服务改进。社交网络分析：通过邮件最频繁联系的人及其最频繁联系的人来找到一个关系密切的群体。组织计算机集群

基于元算法的通用框架，用于无监督学习问题

11月13日，微软研究院（MicrosoftResearch）和普林斯顿大学研究人员，提出了一个通用框架，用于设计无监督学习问题的有效算法，如高斯分布和子空间聚类的混合。研究人员所提的框架在解决噪声问题上，使用了一种下界学习计算公式的元算法。这是建立在Garg、Kayal和Saha(FOCS’20)最近的工作基础上的，他们设计了这样一个框架，用于在没有任何噪音的情况下学习算术公式。元算法的一个关键要素是针对称为“稳健向量空间分解”的新问题的有效算法。研究证明，当某些矩阵具有足够大的最小非零奇异值时，元算法效果很好。“我们推测这个条件适用于我们问题的平滑实例，因此我们的框架将为平滑设置中的这些问

机器学习之无监督学习：八大降维方法

之前我们总结了机器学习中常用的几种回归算法和分类算法。都属于机器学习监督学习算法。今天，和大家分享一下机器学习之无监督学习中的常见的降维方法。我们可以怎样发现一个数据集的底层结构？我们可以怎样最有用地对其进行归纳和分组？我们可以怎样以一种压缩格式有效地表征数据？这都是无监督学习的目标，之所以称之为「无监督」，是因为这是从无标签的数据开始学习的。降维看上去很像压缩。这是为了在尽可能保存相关的结构的同时降低数据的复杂度。如果你有一张简单的128×128×3像素的图像（长×宽×RGB值），那么数据就有49152维。如果你可以给这个图像空间降维，同时又不毁掉图像中太多有意义的内容，那么你就很好地执行了

基于半监督学习的深度学习在计算机视觉中的应用

作者：禅与计算机程序设计艺术1.简介在人工智能领域，深度学习技术逐渐成为解决复杂任务的重要手段。但如何将深度学习技术应用于计算机视觉领域仍存在很多困难。特别是在实际应用场景中，计算机视觉的目标往往是识别图像中的特定对象或场景。现有的很多深度学习模型，如CNN、VGG等，都可以处理一般的图像分类任务，但这些模型在真实环境中的性能却不一定满足要求。比如，对于那些复杂的场景，可能会存在一些噪声影响甚至遮挡导致模型的准确率下降。如何利用弱监督数据提升模型的表现，也成为了当前研究热点。本文通过对半监督学习的相关原理、方法及其在计算机视觉中的应用进行阐述，主要关注以下三个方面：一、半监督学习概述（1）什么

监督学习与无监督学习：专家定义差距

了解监督学习、无监督学习和半监督学习的特征，以及它们在机器学习项目中的应用方式。在人工智能技术的讨论中，监督学习往往会得到最多的宣传，因为它通常是用于创建人工智能模型的最后一步，用于图像识别、更好的预测、产品推荐和潜在客户评分等。相比之下，无监督学习往往在人工智能开发生命周期的早期在幕后工作：它通常被用来为监督学习的魔力展开奠定基础，就像让经理大放异彩的繁重工作一样。正如后面所解释的，这两种机器学习模式都可以有效地应用于业务问题。在技术层面上，监督学习与无监督学习之间的区别在于用于创建算法的原始数据是预先标记（监督学习）还是未预先标记（无监督学习）。让我们开始吧。什么是监督学习？在监督学习中，

自监督DINO论文笔记

论文名称：EmergingPropertiesinSelf-SupervisedVisionTransformers发表时间：CVPR2021作者及组织：FacebookAIResearchGitHub：https://github.com/facebookresearch/dino/tree/main问题与贡献作者认为self-supervisedlearning自监督学习结合visiontransformer（ViT），相对于卷积神经网络，能挖掘更多目标特性，更具象化的表达目标。本文有如下两点贡献：提出了一种新的自监督学习方法，DINO（self-distillationwithnolab

浅析半监督学习及其应用场景

Labs导读随着互联网的发展，企业可以获得越来越多的数据，这些数据可以用于帮助企业更好的了解用户，即客户画像，也可以用来改善用户的体验。但这些数据中可能存在大量没有标记的数据。如果所有数据均采用人工标记的方式则存在两方面的缺点，一是花费的时间成本较高，人工标记效率低，数据量越大需要雇佣的人越多，时间也会越长，成本越高，二是随着用户规模的增大，人工标记的速度很难赶上数据的增长。Part01、什么是半监督学习半监督学习是指使用既有有标签的数据又有无标签的数据训练模型。半监督学习通常会基于有标签的数据构建属性空间，再从无标签的数据中提取有效信息填充（或重构）属性空间。因此，通常半监督学习的初