Transformer-M_草庐IT

[论文阅读]Ghost-free High Dynamic Range Imaging with Context-aware Transformer

Ghost-freeHDRIwithContext-awareTransformer背景介绍已有算法本文算法实验对比背景介绍高动态范围成像（HDR）是一种图像技术，它能够捕捉到比传统图像更广泛的亮度范围。1997年，PaulDebevec在他的论文《RecoveringHighDynamicRangeRadianceMapsfromPhotographs》中提出了HDR的概念。论文里提出可以通过对同一个场景进行不同曝光时间的拍摄，然后用这些低动态范围（LDR）图像合成一张高动态范围（HDR）图像。这样做可以捕捉到从暗部的阴影到亮部的高光，或者说是高反光的更大动态范围的场景。HDR技术主要应用于

LATR：3D Lane Detection from Monocular Images with Transformer

参考代码：LATR动机与主要工作：之前的3D车道线检测算法使用诸如IPM投影、3Danchor加NMS后处理等操作处理车道线检测，但这些操作或多或少会存在一些负面效应。IPM投影对深度估计和相机内外参数精度有要求，anchor的方式需要一些如NMS的后处理辅助。这篇文章主要的贡献有两点：1）针对车道线的特性基于DETR目标检测算法提出了一种基于landlinequery的检测方法，为了使得query的初始化更合理借鉴了SparseInst方法从2D图像域中用不同实例来初始化query，并且建立车道线query的粒度不是车道线级别而是具体到了车道线上的点。2）用图像特征作为key和val是较难去

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师，网友：革命性idea

在计算机图形学中，「三角形网格」是3D几何物体的主要表现形式，也是游戏、电影和VR界面中主要使用的3D资产表示方法。业界通常基于三角形网格来模拟复杂物体的表面，如建筑、车辆、动物，常见的几何变换、几何检测、渲染着色等动作，也需要基于三角形网格进行。与点云或体素等其他3D形状表示法相比，三角形网格提供了更连贯的表面表示法：更可控、更易操作、更紧凑，可直接用于现代渲染流水线，以更少的基元获得更高的视觉质量。此前，已有研究者尝试过使用体素、点云和神经场等表示方法生成3D模型，这些表示也需要通过后处理转换成网格以在下游应用中使用，例如使用MarchingCubes算法进行iso-surfacing处理

简化版Transformer来了，网友：年度论文

Transformer架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度Transformer架构的一种简单方法是将多个相同的Transformer「块」（block）依次堆叠起来，但每个「块」都比较复杂，由许多不同的组件组成，需要以特定的排列组合才能实现良好的性能。自从2017年Transformer架构诞生以来，研究者们基于其推出了大量衍生研究，但几乎没有改动过Transformer「块」。那么问题来了，标准Transformer块是否可以简化？在最近的一篇论文中，来自ETHZurich的研究者讨论了如何在不影响收敛特性和下游任务性能的情况下简化LLM所必需的标准Transfo

南开&山大&北理工团队开发trRosettaRNA：利用Transformer网络自动预测RNA 3D结构

RNA3D结构预测是一个长期存在的挑战。受最近蛋白质结构预测领域突破的启发，南开大学、山东大学以及北京理工大学的研究团队开发了trRosettaRNA，这是一种基于深度学习的自动化RNA3D结构预测方法。trRosettaRNA流程包括两个主要步骤：通过transformer网络进行1D和2D几何形状预测；以及通过能量最小化进行的3D结构折叠。基准测试表明trRosettaRNA优于传统的自动化方法。在CASP15和RNA-Puzzles实验的盲测中，对天然RNA的自动trRosettaRNA预测与人类的顶级预测具有竞争力。当通过均方根偏差的Z分数进行测量时，trRosettaRNA的性能也优

预测token速度翻番！Transformer新解码算法火了，来自小羊驼团队

小羊驼团队的新研究火了。他们开发了一种新的解码算法，可以让模型预测100个token数的速度提高1.5-2.3倍，进而加速LLM推理。比如这是同一个模型（LLaMa-2-Chat7B）面对同一个用户提问（苏格拉底采用了哪些方法来挑战他那个时代的主流思想？）时输出回答的速度：左边为原算法，耗时18.12s，每秒约35个token；右边为该算法，耗时10.4s，每秒约60个token，明显快了一大截。简单来说，这是一种并行解码算法，名叫“LookaheadDecoding” （前向解码）。它主要利用雅可比（Jacobi）迭代法首次打破自回归解码中的顺序依赖性（众所周知，当下大模型基本都是基于自回

Meta对Transformer架构下手了：新注意力机制更懂推理

大型语言模型（LLM）很强已经是一个不争的事实，但它们有时仍然容易犯一些简单的错误，表现出较弱的推理能力。举个例子，LLM可能会因不相关的上下文或者输入提示中固有的偏好或意见做出错误的判断。后一种情况表现出的问题被叫做「阿谀奉承」，即模型与输入保持一致。有没有方法来缓解这类问题呢？有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决，但这些无法从根本上解决问题。近日Meta研究者在论文《System2Attention(issomethingyoumightneedtoo)》中认为，根本问题在于Transformer本身固有的构建方式，尤其是其注意力机制。也就是说，软注意力既倾向于将概

深入了解前馈网络、CNN、RNN 和 Hugging Face 的 Transformer 技术！

一、说明本篇在此对自然语言模型做一个简短总结，从CNN\RNN\变形金刚，和抱脸的变形金刚库说起。二、基本前馈神经网络：让我们分解一个基本的前馈神经网络，也称为多层感知器（MLP）。此代码示例将：定义神经网络的架构。初始化权重和偏差。使用sigmoid激活函数实现前向传播。使用均方误差损失函数实现训练的反向传播。演示在简单数据集上的训练。importnumpyasnpclassNeuralNetwork:def__init__(self,input_size,hidden_size,output_size):#Initializeweightsandbia

[异构图-论文阅读]Heterogeneous Graph Transformer

这篇论文介绍了一种用于建模Web规模异构图的异构图变换器（HGT）架构。以下是主要的要点：摘要和引言(第1页)异构图被用来抽象和建模复杂系统，其中不同类型的对象以各种方式相互作用。许多现有的图神经网络（GNNs）主要针对同构图设计，无法有效表示异构结构。HGT通过设计节点和边类型相关的参数来模拟异构注意力，从而允许HGT为不同类型的节点和边保持专用的表示。通过使用HGSampling（异构小批量图采样算法），HGT能够有效和可扩展地处理Web规模的图数据。在OpenAcademicGraph上的实验显示，HGT在各种下游任务上一致优于所有最先进的GNN基线。HGT架构（第2页和第3页）异构互注

NLP问题实战：基于LSTM（RNN）和Transformer模型

译者|朱先忠审校|重楼简介GPT等语言模型最近变得非常流行，并被应用于各种文本生成任务，例如在ChatGPT或其他会话人工智能系统中。通常，这些语言模型规模巨大，经常使用超过数百亿个参数，并且需要大量的计算资源和资金来运行。在英语模型的背景下，这些庞大的模型被过度参数化了，因为它们使用模型的参数来记忆和学习我们这个世界的各个方面，而不仅仅是为英语建模。如果我们要开发一个应用程序，要求模型只理解语言及其结构，那么我们可能会使用一个小得多的模型。注意：您可以在本文提供的Jupyter笔记本https://github.com/dhruvbird/ml-notebooks/blob/main/nex