前言传送门:stablediffusion:Git|论文stable-diffusion-webui:GitGoogleColabNotebook:GitkaggleNotebook:Git今年AIGC实在是太火了,让人大呼许多职业即将消失,比如既能帮忙写代码,又能写文章的ChatGPT。当然,还有AI绘画,输入一段文本就能生成相关的图像,stablediffusion便是其中一个重要分支。自己对其中的原理比较感兴趣,因此开启这个系列的文章来对stablediffusion的原理进行学习(主要是针对“文生图”[texttoimage])。上述的stable-diffusion-webui是AU
Mip-NeRF360:UnboundedAnti-AliasedNeuralRadianceFields无边界抗锯齿神经辐射场论文提出了mip-NeRF(一种解决采样和混叠的NeRF变体)的扩展,该扩展使用非线性场景参数化、在线蒸馏和基于失真的新正则化器来克服无界场景带来的挑战。将NeRF以及扩展模型应用于大型无界场景有以下挑战:1.参数化。无边界360度场景可以占据欧几里得空间的任意大区域,但mip-NeRF要求3D场景坐标位于有界域中。2.效率。大型和详细的场景需要更多的网络容量,但在训练期间密集地沿每条射线查询大型MLP是昂贵的。3.歧义。无界场景的内容可能位于任何距离处,并且将仅由少
其实仔细看一些代码也是非常有收获的。DeepPhase那里基本上跟踪到了输入,输出,和测试时的后处理过程HumanML3D目前的疑惑点在系数的全局旋转,是在是搞不清楚。问了问题果然是区别对待的就是为了faceZ+。存储的global这个应该是个逆。然后后面的速度,应该也是局部的速度raw_pose_processing.pyamass_to_pose:这个函数主要就是把系数转成了3D关键点,并且对于关键点做一个绕着x轴顺时针90度的旋转。生成文件带有M的,是做了动作的镜像。motion_representation.pyuniform_skeleton:这个函数主要就是对齐骨骼,tgt这个是随
CVPR2023Co-SLAM:JointCoordinateandSparseParametricEncodingsforNeuralReal-TimeSLAMinput:RGB-Dcontribution:1.场景表示:多分辨率哈希网格(加速&保留高频特征)2.编码方式:one-blob(提升未观察到区域的补全能力和一致性)编码方式根据场景表示(hash网格)制定3.改进关键帧:支持在所有关键帧上执行BARelatedWorkiMap:由于实时性的要求,iMap使用系数采样和减少迭代次数提升效率,造成丢失高频细节&增大误差。场景表示:如八叉树、哈希/体素网格等虽然可以提升效率,但缺乏MLP
DiffusionModels专栏文章汇总:入门与实战前言:扩散模型在学术界如火如荼地发展,但是生成模型本身就有很多法律风险,如果未经权利人许可下载原始数据生成模型,是否构成对原始数据版权的侵犯?谁拥有生成模型自动创建的萌字符图像的权利?如果模型自动生成的图像“不小心”与用于生成模型的原始数据之一相似,是否构成对原始数据版权的侵犯?目录全球多国重拳出击
前言NeRF从2020年发展至今,仅仅三年时间,而Follow的工作已呈井喷之势,相信在不久的将来,NeRF会一举重塑三维重建这个业界,甚至重建我们的四维世界(开头先吹一波)。NeRF的发展时间虽短,有几篇工作却在我研究的领域开始呈现万精油趋势:PixelNeRF----泛化法宝MipNeRF----近远景重建NeRFinthewild----光线变换下的背景重建NeuS----用NeRF重建SurfaceInstant-NGP----多尺度Hash编码实现高效渲染WhyNeuS?基于二维图片的三维重建是计算机视觉中最核心的任务之一,传统方法的发展目前已经收敛于某种上限。从视觉中提取出物体的三
【StableDiffusion论文精读】High-ResolutionImageSynthesiswithLatentDiffusionModels(主打详细和易懂)0、前言(学的明明白白)Abstract1.Introduction1.1民主化的Democratizing高分辨率图像合成1.2向潜在空间出发1.3总结2.RelatedWork(粗看)2.1GenerativeModelsforImageSynthesis2.2DiffusionProbabilisticModels(DM)2.3Two-StageImageSynthesis3.Method(需要细看)3.1.Percept
论文提出了latentdiffusionmodels(LDMs)。基于该模型最著名的工作是文本生成图像模型stable-diffusion。普通的扩散模型在像素空间操作,运算复杂度较高。为了保证在低资源下训练扩散模型,并保留扩散模型的质量和灵活性,该论文使用预训练的自编码器得到隐含空间,并在隐含空间中训练扩散模型。另一方面,该论文使用cross-attention机制为扩散模型引入条件,条件可以是文本、boundingbox等。方法方法的整体结构如上图。先用自编码器训练通用的压缩模型(红色部分),通用的压缩模型可以用来训练不同的扩散模型。之后在自编码器的低维隐含空间上训练扩散模型(绿色部分),
Block-NeRF:ScalableLargeSceneNeuralViewSynthesis:可扩展的大场景神经视图合成摘要:论文中证明了在缩放NeRF以渲染跨越多个块的城市规模场景时,将场景分解为单独训练的NeRF很重要,该分解将渲染时间与场景大小解耦,使渲染能够缩放到任意大的环境,并允许按块更新环境。为每个单独的NeRF添加了外观嵌入、学习姿态细化和可控曝光,并引入了一种在相邻NeRF之间对齐外观的程序,以便它们可以无缝组合。大规模场景带来的问题:由于模型容量有限,将这些方法应用于大型环境通常会导致显著的伪影和较低的视觉逼真度。重建这样的大规模环境会带来额外的挑战,包括瞬时物体(汽车和
LatentDiffusion(StableDiffusion)论文译文:LatentDiffusion(StableDiffusion)论文译文以下是附录的H、其他定性结果:最后,我们为我们的景观模型(图12、23、24和25)、我们的类条件ImageNet模型(图26-27)以及我们的CelebA-HQ、FFHQ和LSUN数据集的无条件模型(图28-31)提供了额外的定性结果。与第4.5节中的绘画模型类似,我们也对第4.3.2节中的语义景观模型进行了微调,并在图12和图23中描述了定性的结果。对于我们那些在相当小的数据集上训练的模型,我们还在图32-34中显示了我们模型的样本在VGG[79