扩散Transformer

Transformer变革3D建模，MeshGPT生成效果惊动专业建模师，网友：革命性idea

在计算机图形学中，「三角形网格」是3D几何物体的主要表现形式，也是游戏、电影和VR界面中主要使用的3D资产表示方法。业界通常基于三角形网格来模拟复杂物体的表面，如建筑、车辆、动物，常见的几何变换、几何检测、渲染着色等动作，也需要基于三角形网格进行。与点云或体素等其他3D形状表示法相比，三角形网格提供了更连贯的表面表示法：更可控、更易操作、更紧凑，可直接用于现代渲染流水线，以更少的基元获得更高的视觉质量。此前，已有研究者尝试过使用体素、点云和神经场等表示方法生成3D模型，这些表示也需要通过后处理转换成网格以在下游应用中使用，例如使用MarchingCubes算法进行iso-surfacing处理

【华为OD机试真题 Golang语言】68、矩阵扩散 | 机试真题+思路参考+代码分析

文章目录一、题目🎃题目描述🎃输入输出🎃样例1二、思路参考三、代码参考作者：KJ.JK🍂个人博客首页：KJ.JK 🍂专栏介绍：华为OD机试真题汇总，定期更新华为OD各个时间阶段的机试真题，每日定时更新，本专栏将使用Golang语言进行更新解答，包含真题，思路分析，代码参考，欢迎大家订阅学习一、题目🎃题目描述存在一个m*n的二维数组，其成员取值范围为0或1 其中值为1的成员具备扩散性，每经过1S，将上下左右值为0的成员同化为1。二维数组的成员初始值都为0，将第[i，j]和[

简化版Transformer来了，网友：年度论文

Transformer架构可以说是近期深度学习领域许多成功案例背后的主力军。构建深度Transformer架构的一种简单方法是将多个相同的Transformer「块」（block）依次堆叠起来，但每个「块」都比较复杂，由许多不同的组件组成，需要以特定的排列组合才能实现良好的性能。自从2017年Transformer架构诞生以来，研究者们基于其推出了大量衍生研究，但几乎没有改动过Transformer「块」。那么问题来了，标准Transformer块是否可以简化？在最近的一篇论文中，来自ETHZurich的研究者讨论了如何在不影响收敛特性和下游任务性能的情况下简化LLM所必需的标准Transfo

GPT-4+物理引擎加持扩散模型，生成视频逼真、连贯、合理

扩散模型的出现推动了文本生成视频技术的发展，但这类方法的计算成本通常不菲，并且往往难以制作连贯的物体运动视频。为了解决这些问题，来自中国科学院深圳先进技术研究院、中国科学院大学和VIVOAILab的研究者联合提出了一个无需训练的文本生成视频新框架——GPT4Motion。GPT4Motion结合了GPT等大型语言模型的规划能力、Blender软件提供的物理模拟能力，以及扩散模型的文生图能力，旨在大幅提升视频合成的质量。项目链接：https://gpt4motion.github.io/论文链接：https://arxiv.org/pdf/2311.12631.pdf代码链接：https://g

南开&山大&北理工团队开发trRosettaRNA：利用Transformer网络自动预测RNA 3D结构

RNA3D结构预测是一个长期存在的挑战。受最近蛋白质结构预测领域突破的启发，南开大学、山东大学以及北京理工大学的研究团队开发了trRosettaRNA，这是一种基于深度学习的自动化RNA3D结构预测方法。trRosettaRNA流程包括两个主要步骤：通过transformer网络进行1D和2D几何形状预测；以及通过能量最小化进行的3D结构折叠。基准测试表明trRosettaRNA优于传统的自动化方法。在CASP15和RNA-Puzzles实验的盲测中，对天然RNA的自动trRosettaRNA预测与人类的顶级预测具有竞争力。当通过均方根偏差的Z分数进行测量时，trRosettaRNA的性能也优

预测token速度翻番！Transformer新解码算法火了，来自小羊驼团队

小羊驼团队的新研究火了。他们开发了一种新的解码算法，可以让模型预测100个token数的速度提高1.5-2.3倍，进而加速LLM推理。比如这是同一个模型（LLaMa-2-Chat7B）面对同一个用户提问（苏格拉底采用了哪些方法来挑战他那个时代的主流思想？）时输出回答的速度：左边为原算法，耗时18.12s，每秒约35个token；右边为该算法，耗时10.4s，每秒约60个token，明显快了一大截。简单来说，这是一种并行解码算法，名叫“LookaheadDecoding” （前向解码）。它主要利用雅可比（Jacobi）迭代法首次打破自回归解码中的顺序依赖性（众所周知，当下大模型基本都是基于自回

Meta对Transformer架构下手了：新注意力机制更懂推理

大型语言模型（LLM）很强已经是一个不争的事实，但它们有时仍然容易犯一些简单的错误，表现出较弱的推理能力。举个例子，LLM可能会因不相关的上下文或者输入提示中固有的偏好或意见做出错误的判断。后一种情况表现出的问题被叫做「阿谀奉承」，即模型与输入保持一致。有没有方法来缓解这类问题呢？有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决，但这些无法从根本上解决问题。近日Meta研究者在论文《System2Attention(issomethingyoumightneedtoo)》中认为，根本问题在于Transformer本身固有的构建方式，尤其是其注意力机制。也就是说，软注意力既倾向于将概

扩散模型实战（十一）：剖析Stable Diffusion Pipeline各个组件

推荐阅读列表：扩散模型实战（一）：基本原理介绍扩散模型实战（二）：扩散模型的发展扩散模型实战（三）：扩散模型的应用扩散模型实战（四）：从零构建扩散模型扩散模型实战（五）：采样过程扩散模型实战（六）：DiffusersDDPM初探扩散模型实战（七）：Diffusers蝴蝶图像生成实战扩散模型实战（八）：微调扩散模型扩散模型实战（九）：使用CLIP模型引导和控制扩散模型扩散模型实战（十）：StableDiffusion文本条件生成图像大模型在扩散模型实战（十）：StableDiffusion文本条件生成图像大模型中介绍了如何使用StableDiffusionPipeline控制图片生成

深入了解前馈网络、CNN、RNN 和 Hugging Face 的 Transformer 技术！

一、说明本篇在此对自然语言模型做一个简短总结，从CNN\RNN\变形金刚，和抱脸的变形金刚库说起。二、基本前馈神经网络：让我们分解一个基本的前馈神经网络，也称为多层感知器（MLP）。此代码示例将：定义神经网络的架构。初始化权重和偏差。使用sigmoid激活函数实现前向传播。使用均方误差损失函数实现训练的反向传播。演示在简单数据集上的训练。importnumpyasnpclassNeuralNetwork:def__init__(self,input_size,hidden_size,output_size):#Initializeweightsandbia

[异构图-论文阅读]Heterogeneous Graph Transformer

这篇论文介绍了一种用于建模Web规模异构图的异构图变换器（HGT）架构。以下是主要的要点：摘要和引言(第1页)异构图被用来抽象和建模复杂系统，其中不同类型的对象以各种方式相互作用。许多现有的图神经网络（GNNs）主要针对同构图设计，无法有效表示异构结构。HGT通过设计节点和边类型相关的参数来模拟异构注意力，从而允许HGT为不同类型的节点和边保持专用的表示。通过使用HGSampling（异构小批量图采样算法），HGT能够有效和可扩展地处理Web规模的图数据。在OpenAcademicGraph上的实验显示，HGT在各种下游任务上一致优于所有最先进的GNN基线。HGT架构（第2页和第3页）异构互注