草庐IT

$阅读器

全部标签

论文阅读--High-Resolution Image Synthesis with Latent Diffusion Models

High-ResolutionImageSynthesiswithLatentDiffusionModels论文阅读Abstract&IntroductionDiffusionmodel相比GAN可以取得更好的图片生成效果,然而该模型是一种自回归模型,需要反复迭代计算,因此训练和推理代价都很高。论文提出一种在潜在表示空间(latentspace)上进行diffusion过程的方法,从而能够大大减少计算复杂度,同时也能达到十分不错的图片生成效果。图像符号:在RGB空间:编码器encoder:,将x压缩成低维表示解码器decoder:D,将低维表示z还原成原始图像空间。用于生成控制的条件去噪自编码

论文阅读<GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions>

        这篇文章是在2022年AAAI上发表的一篇文章IA-YOLO上进行改进的,基本思想是一致的,利用的相机ISP的pipeline进行图像增强,和YOLOv3进行联合训练。论文链接:[2209.14922]GDIP:GatedDifferentiableImageProcessingforObject-DetectioninAdverseConditions(arxiv.org)代码链接:GitHub-Gatedip/GDIP-Yolo:GatedDifferentiableImageProcessing(GDIP)forObjectDetectioninAdverseCondit

【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

SparseCtrl:在文本到视频扩散模型中添加稀疏控制。(AnimateDiffV3,官方版AnimateDiff+ControlNet,效果很丝滑)code:GitHub-guoyww/AnimateDiff:OfficialimplementationofAnimateDiff.paper:https://arxiv.org/abs/2311.16933目录文章1介绍2背景3方法4实验5结论复现1问题2结果文章1介绍动机:不断调整文字prompt以达到理想效果非常耗时费力,作者希望通过添加额外输入条件(草图、深度和RGB图像)来控制T2V生成。方法:提出SparseCtrl,通过带有附加

Rust权威指南阅读笔记(二)猜数游戏

在Rust下,所有变量都默认不可变,如果要声明一个可变的变量,需要在声明时加mutletfoo=1;foo=2;//Error!!letmutbar=2;bar=3;//Noerror!添加库所有的库都在crates.io这个网站下Cargo换源1、进入 $HOME/.cargo 文件夹中。我的目录是C:\Users\admin\.cargo2、删除一个名为 .package-cache 的文件3、创建一个名为 config 的文件,注意不要后缀4、编辑 config 文件,将下面内容添加进去后,保存退出即可[source.crates-io]replace-with='sjtu'#指定使用下

Rust权威指南阅读笔记(二)猜数游戏

在Rust下,所有变量都默认不可变,如果要声明一个可变的变量,需要在声明时加mutletfoo=1;foo=2;//Error!!letmutbar=2;bar=3;//Noerror!添加库所有的库都在crates.io这个网站下Cargo换源1、进入 $HOME/.cargo 文件夹中。我的目录是C:\Users\admin\.cargo2、删除一个名为 .package-cache 的文件3、创建一个名为 config 的文件,注意不要后缀4、编辑 config 文件,将下面内容添加进去后,保存退出即可[source.crates-io]replace-with='sjtu'#指定使用下

Visual ChatGPT论文阅读笔记

VisualChatGPT论文阅读做笔记的目的介绍论文贡献VisualChatGPT总体框架总体流程实验限制总结做笔记的目的1、读完了论文,做一下笔记让自己别忘的那么快2、蹭一波热度(好像有点晚了)3、这是第一次看纯工程论文,所以做一下笔记介绍大的自然语言模型,在自然语言处理任务上展现出了强大的能力,但难以处理视觉任务。同时大的视觉模型在特定的任务上表现的非常好,但受限于输入输出格式等等不如语言模型一样灵活。对于如何让ChatGPT支持多模态聊天这个问题,比较直观的想法是训练一个多模态聊天模型,但是这样做需要耗费大量的数据和计算资源,同时可拓展性也不高。因此作者从Prompt工程出发,构建了V

论文阅读--Behavior Proximal Policy Optimization

作者:ZifengZhuang,KunLei,JinxinLiu,DonglinWang,YilangGuo论文链接:http://arxiv.org/abs/2302.11312arXiv  2023-02-22代码链接:https://github.com/Dragon-Zhuang/BPPO摘要离线强化学习(RL)是一个具有挑战性的场景,现有的非策略行动者-评论家方法由于高估了分布外的状态-动作对而表现不佳。因此,提出了各种额外的增强来保持学习到的策略接近离线数据集(或行为政策)。在这项工作中,从分析离线单调策略改进出发,我们得到了一个令人惊讶的发现,一些在线在策略算法自然能够解决离线R

ICLR 2022: Anomaly Transformer论文阅读笔记+代码复现

本论文全名为AnomalyTransformer:TimeSeriesAnomalyDetectionwithAssociationDescrepancy(通过关联差异进行时序异常检测),主要提出了一种无监督的异常点检测算法,并在6个benchmarks上测试,获取良好结果。论文链接:ANOMALYTRANSFORMER:TIMESERIESANOMALYDETECTIONWITHASSOCIATIONDISCREPANCY论文主要想法作者这里定义了两个概念:prior-association与series-association,用于捕捉时间序列数据中的异常模式和正常模式。将Transfor

ICLR 2022: Anomaly Transformer论文阅读笔记+代码复现

本论文全名为AnomalyTransformer:TimeSeriesAnomalyDetectionwithAssociationDescrepancy(通过关联差异进行时序异常检测),主要提出了一种无监督的异常点检测算法,并在6个benchmarks上测试,获取良好结果。论文链接:ANOMALYTRANSFORMER:TIMESERIESANOMALYDETECTIONWITHASSOCIATIONDISCREPANCY论文主要想法作者这里定义了两个概念:prior-association与series-association,用于捕捉时间序列数据中的异常模式和正常模式。将Transfor

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读

Vary预备知识CLIPQwen-7BVicuna-7B简介模型产生新视觉词表新词汇网络数据输入格式融合新视觉词表Vary-base结构数据对话格式模型输出结果示例结论Vary的代码和模型均已开源,还给出了供大家试玩的网页demo。感兴趣的小伙伴可以去试试主页:https://varybase.github.io/部分内容参考:https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA预备知识CLIP官网:https://openai.com/research/clip(要了解的建议看这个,篇幅少点,论文中大量篇幅是介绍实验的)论文:https://ar