sparse_softmax_cross_entropy_loss

【论文精读】HAMMER: Learning Entropy Maps to Create Accurate 3D Models in Multi-View Stereo

今天读一篇WACV2024上MVS的文章，作者来自格拉茨技术大学。文章链接：点击前往Abstract为了减少在深度图融合点云参数调整上的实验负担，可以学习基于entropy的filteringmask进而根据两个视角的几何验证来重建三维模型。并且，提出的网络计算开销不大，训练只需要6GB，测试时，3.6GB即可处理1920*1024的图片，性能也和sota很接近。1IntroductionMVS问题当中，尽管输出首先是深度图，但当今最常见的基准测试是评估点云，即3D模型而不是深度图。虽然深度图的创建是由神经网络处理的，但点云仍然通过检查几何和光度一致性以经典方式生成。photometricma

精读 Multi-View span class xff0c 计算机视觉人工智能

102、X^3 : Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies

简介官网 Nvidia2023提出的一种新的生成模型，可生成具有任意属性的高分辨率稀疏3D体素网格，以前馈方式生成数百万体素，最细有效分辨率高达102431024^310243，而无需耗时的test-time优化，使用一种分层体素潜扩散模型，使用建立在高效VDB数据结构上的自定义框架，以从粗到细的方式生成逐步更高的分辨率网格。XCube在100m×100m规模的大型户外场景中的有效性，体素大小小至10cm。实现流程目标是学习一个以稀疏体素层次表示的大规模3D场景的生成模型，由L层由粗到细的体素网格组成G={G1,⋅，GL}G=\{G_1,\cdot，G_L\}G={G1,⋅，GL}及其相

Large-Scale Hierarchies span class vlist 3d python

Cross-Drone Transformer Network for Robust Single Object Tracking论文阅读笔记

Cross-DroneTransformerNetworkforRobustSingleObjectTracking论文阅读笔记Abstract无人机在各种应用中得到了广泛使用，例如航拍和军事安全，这得益于它们与固定摄像机相比的高机动性和广阔视野。多无人机追踪系统可以通过从不同视角收集互补的视频片段，为目标提供丰富的信息，特别是当目标在某些视角中被遮挡或消失时。然而，在多无人机视觉追踪中处理跨无人机信息交互和多无人机信息融合是具有挑战性的。最近，Transformer在自动建模视觉追踪的模板和搜索区域之间的相关性方面显示出显著的优势。为了利用其在多无人机追踪中的潜力，我们提出了一种新型的跨无人

Cross-Drone Transformer span class style 论文阅读笔记深度学习

论文阅读＜CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather.....＞

论文链接：https://arxiv.org/pdf/2309.08152.pdfhttps://arxiv.org/pdf/2206.01381.pdfhttps://arxiv.org/pdf/2309.08152.pdf代码链接：https://github.com/DiffPrompter/diff-prompter目前没有完整代码放出。恶劣天气下的目标检测主要有以下三种解决方案：1）使用预处理(pre-processing)，例如imagedesnowing/deraining/dehazing，尽管已经有大量的方法去完成这个工作，但是会丢失图像细节。2）使用双分支网

YOLO Detection xff0c xff0 xff 论文阅读

CMU DLSys 课程笔记 2 - ML Refresher / Softmax Regression

CMUDLSys课程笔记2-MLRefresher/SoftmaxRegression本节Slides|本节课程视频这一节课是对机器学习内容的一个复习，以SoftmaxRegression为例讲解一个典型的有监督机器学习案例的整个流程以及其中的各种概念。预期读者应当对机器学习的基本概念有一定的了解。目录CMUDLSys课程笔记2-MLRefresher/SoftmaxRegression目录机器学习基础SoftmaxRegression案例问题定义模型假设损失函数优化方法完整算法描述机器学习基础针对于手写数字识别这一问题，传统的图像识别算法可能是首先找到每个数字的特征，然后手写规则来识别每个数

Regression Refresher section theta 梯度机器学习

CMU DLSys 课程笔记 2 - ML Refresher / Softmax Regression

CMUDLSys课程笔记2-MLRefresher/SoftmaxRegression本节Slides|本节课程视频这一节课是对机器学习内容的一个复习，以SoftmaxRegression为例讲解一个典型的有监督机器学习案例的整个流程以及其中的各种概念。预期读者应当对机器学习的基本概念有一定的了解。目录CMUDLSys课程笔记2-MLRefresher/SoftmaxRegression目录机器学习基础SoftmaxRegression案例问题定义模型假设损失函数优化方法完整算法描述机器学习基础针对于手写数字识别这一问题，传统的图像识别算法可能是首先找到每个数字的特征，然后手写规则来识别每个数

Regression Refresher section theta 梯度 AI

【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

SparseCtrl:在文本到视频扩散模型中添加稀疏控制。（AnimateDiffV3，官方版AnimateDiff+ControlNet，效果很丝滑）code：GitHub-guoyww/AnimateDiff:OfficialimplementationofAnimateDiff.paper：https://arxiv.org/abs/2311.16933目录文章1介绍2背景3方法4实验5结论复现1问题2结果文章1介绍动机：不断调整文字prompt以达到理想效果非常耗时费力，作者希望通过添加额外输入条件（草图、深度和RGB图像）来控制T2V生成。方法：提出SparseCtrl，通过带有附加

复现 Text-to-Video xff0c xff xff0 论文阅读 stable diffusion

【论文笔记】MCANet: Medical Image Segmentation withMulti-Scale Cross-Axis Attention

医疗图像分割任务中，捕获多尺度信息、构建长期依赖对分割结果有非常大的影响。该论文提出了 Multi-scaleCross-axisAttention（MCA）模块，融合了多尺度特征，并使用Attention提取全局上下文信息。论文地址：MCANet:MedicalImageSegmentationwithMulti-ScaleCross-AxisAttention代码地址：https://github.com/haoshao-nku/medical_seg一、MCA(Multi-scaleCross-axisAttention)MCA的结构如下，将E2/3/4通过concat连接起来（

withMulti-Scale Segmentation self 61 normalized_shape 论文阅读深度学习人工智能

大模型训练loss突刺原因和解决办法

最近阅读了《ATheoryonAdamInstabilityinLarge-ScaleMachineLearning》这篇论文。比较全面的阐述了100B以上的大模型预训练中出现lossspike的原因(loss突然大幅度上涨)，并介绍了一些可能的解决办法。论文写的非常精彩，但整体上有点散和深，我尝试着站在工业立场上把它串一下突刺是什么首先介绍一下什么是lossspike：lossspike指的是预训练过程中，尤其容易在大模型（100B以上）预训练过程中出现的loss突然暴涨的情况图片如图所示模型训练过程中红框中突然上涨的loss尖峰lossspike的现象会导致一系列的问题发生，譬如模型需要很

模型训练梯度图片浅层开发前端 upscale 优化器

跨模态检索论文阅读：Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval

Cross-ModalImplicitRelationReasoningandAligningforText-to-ImagePersonRetrieval跨模态隐式关系推理与文本对图像人物检索的比对我们提出了IRRA：一种跨模态隐式关系推理和配准框架，它可以学习局部视觉-文本标记之间的关系，并增强全局图像-文本匹配，而无需额外的先验监督。具体来说，我们首先在掩码语言建模范式中设计了一个隐式关系推理模块。该模块通过跨模态多模态交互编码器将视觉线索整合到文本标记中，从而实现跨模态交互。其次，为了对视觉和文本嵌入进行全局对齐，提出了相似性分布匹配法，以最小化图像-文本相似性分布与归一化标签匹配分布

模态 Text-to-Image xff0c xff xff0 论文阅读跨模态检索图文检索人工智能深度学习 IRRA