$阅读器_草庐IT

论文阅读--High-Resolution Image Synthesis with Latent Diffusion Models

High-ResolutionImageSynthesiswithLatentDiffusionModels论文阅读Abstract&IntroductionDiffusionmodel相比GAN可以取得更好的图片生成效果，然而该模型是一种自回归模型，需要反复迭代计算，因此训练和推理代价都很高。论文提出一种在潜在表示空间（latentspace）上进行diffusion过程的方法，从而能够大大减少计算复杂度，同时也能达到十分不错的图片生成效果。图像符号：在RGB空间：编码器encoder：，将x压缩成低维表示解码器decoder:D，将低维表示z还原成原始图像空间。用于生成控制的条件去噪自编码

论文阅读＜GDIP: Gated Differentiable Image Processing for Object-Detection in Adverse Conditions＞

这篇文章是在2022年AAAI上发表的一篇文章IA-YOLO上进行改进的，基本思想是一致的，利用的相机ISP的pipeline进行图像增强，和YOLOv3进行联合训练。论文链接：[2209.14922]GDIP:GatedDifferentiableImageProcessingforObject-DetectioninAdverseConditions(arxiv.org)代码链接：GitHub-Gatedip/GDIP-Yolo:GatedDifferentiableImageProcessing(GDIP)forObjectDetectioninAdverseCondit

Object-Detection Differentiable xff0c xff0 xff 论文阅读深度学习

【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

SparseCtrl:在文本到视频扩散模型中添加稀疏控制。（AnimateDiffV3，官方版AnimateDiff+ControlNet，效果很丝滑）code：GitHub-guoyww/AnimateDiff:OfficialimplementationofAnimateDiff.paper：https://arxiv.org/abs/2311.16933目录文章1介绍2背景3方法4实验5结论复现1问题2结果文章1介绍动机：不断调整文字prompt以达到理想效果非常耗时费力，作者希望通过添加额外输入条件（草图、深度和RGB图像）来控制T2V生成。方法：提出SparseCtrl，通过带有附加

复现 Text-to-Video xff0c xff xff0 论文阅读 stable diffusion

Rust权威指南阅读笔记（二）猜数游戏

在Rust下，所有变量都默认不可变，如果要声明一个可变的变量，需要在声明时加mutletfoo=1;foo=2;//Error!!letmutbar=2;bar=3;//Noerror!添加库所有的库都在crates.io这个网站下Cargo换源1、进入 $HOME/.cargo 文件夹中。我的目录是C:\Users\admin\.cargo2、删除一个名为 .package-cache 的文件3、创建一个名为 config 的文件，注意不要后缀4、编辑 config 文件，将下面内容添加进去后，保存退出即可[source.crates-io]replace-with='sjtu'#指定使用下

权威笔记 nbsp code 一个后端开发

Rust权威指南阅读笔记（二）猜数游戏

在Rust下，所有变量都默认不可变，如果要声明一个可变的变量，需要在声明时加mutletfoo=1;foo=2;//Error!!letmutbar=2;bar=3;//Noerror!添加库所有的库都在crates.io这个网站下Cargo换源1、进入 $HOME/.cargo 文件夹中。我的目录是C:\Users\admin\.cargo2、删除一个名为 .package-cache 的文件3、创建一个名为 config 的文件，注意不要后缀4、编辑 config 文件，将下面内容添加进去后，保存退出即可[source.crates-io]replace-with='sjtu'#指定使用下

权威笔记 nbsp code 一个 Rust

Visual ChatGPT论文阅读笔记

VisualChatGPT论文阅读做笔记的目的介绍论文贡献VisualChatGPT总体框架总体流程实验限制总结做笔记的目的1、读完了论文，做一下笔记让自己别忘的那么快2、蹭一波热度（好像有点晚了）3、这是第一次看纯工程论文，所以做一下笔记介绍大的自然语言模型，在自然语言处理任务上展现出了强大的能力，但难以处理视觉任务。同时大的视觉模型在特定的任务上表现的非常好，但受限于输入输出格式等等不如语言模型一样灵活。对于如何让ChatGPT支持多模态聊天这个问题，比较直观的想法是训练一个多模态聊天模型，但是这样做需要耗费大量的数据和计算资源，同时可拓展性也不高。因此作者从Prompt工程出发，构建了V

ChatGPT 笔记 span class style 论文阅读语言模型人工智能深度学习

论文阅读--Behavior Proximal Policy Optimization

作者：ZifengZhuang，KunLei，JinxinLiu，DonglinWang，YilangGuo论文链接：http://arxiv.org/abs/2302.11312arXiv 2023-02-22代码链接：https://github.com/Dragon-Zhuang/BPPO摘要离线强化学习(RL)是一个具有挑战性的场景，现有的非策略行动者-评论家方法由于高估了分布外的状态-动作对而表现不佳。因此，提出了各种额外的增强来保持学习到的策略接近离线数据集(或行为政策)。在这项工作中，从分析离线单调策略改进出发，我们得到了一个令人惊讶的发现，一些在线在策略算法自然能够解决离线R

Optimization Behavior xff xff0c xff0 论文阅读学习机器学习

ICLR 2022: Anomaly Transformer论文阅读笔记+代码复现

本论文全名为AnomalyTransformer:TimeSeriesAnomalyDetectionwithAssociationDescrepancy（通过关联差异进行时序异常检测），主要提出了一种无监督的异常点检测算法，并在6个benchmarks上测试，获取良好结果。论文链接：ANOMALYTRANSFORMER:TIMESERIESANOMALYDETECTIONWITHASSOCIATIONDISCREPANCY论文主要想法作者这里定义了两个概念：prior-association与series-association，用于捕捉时间序列数据中的异常模式和正常模式。将Transfor

复现 Transformer mathcal 重构关联 AI综合

ICLR 2022: Anomaly Transformer论文阅读笔记+代码复现

本论文全名为AnomalyTransformer:TimeSeriesAnomalyDetectionwithAssociationDescrepancy（通过关联差异进行时序异常检测），主要提出了一种无监督的异常点检测算法，并在6个benchmarks上测试，获取良好结果。论文链接：ANOMALYTRANSFORMER:TIMESERIESANOMALYDETECTIONWITHASSOCIATIONDISCREPANCY论文主要想法作者这里定义了两个概念：prior-association与series-association，用于捕捉时间序列数据中的异常模式和正常模式。将Transfor

复现 Transformer mathcal 重构关联 AI

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读

Vary预备知识CLIPQwen-7BVicuna-7B简介模型产生新视觉词表新词汇网络数据输入格式融合新视觉词表Vary-base结构数据对话格式模型输出结果示例结论Vary的代码和模型均已开源，还给出了供大家试玩的网页demo。感兴趣的小伙伴可以去试试主页：https://varybase.github.io/部分内容参考：https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA预备知识CLIP官网：https://openai.com/research/clip（要了解的建议看这个，篇幅少点，论文中大量篇幅是介绍实验的）论文：https://ar

Vision Vision-Language xff0c xff xff0 语言模型论文阅读人工智能