草庐IT

diffusion_model

全部标签

【论文阅读+复现】SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models

SparseCtrl:在文本到视频扩散模型中添加稀疏控制。(AnimateDiffV3,官方版AnimateDiff+ControlNet,效果很丝滑)code:GitHub-guoyww/AnimateDiff:OfficialimplementationofAnimateDiff.paper:https://arxiv.org/abs/2311.16933目录文章1介绍2背景3方法4实验5结论复现1问题2结果文章1介绍动机:不断调整文字prompt以达到理想效果非常耗时费力,作者希望通过添加额外输入条件(草图、深度和RGB图像)来控制T2V生成。方法:提出SparseCtrl,通过带有附加

BERT: The Revolutionary Transformer Model for Natural Language Processing

1.背景介绍自从2017年的《AttentionisAllYouNeed》一文出现,Transformer架构就成为了自然语言处理领域的主流架构。Transformer架构的出现使得自注意力机制成为了深度学习模型中的一种重要的技术,它能够有效地解决序列到序列(Seq2Seq)任务中的长距离依赖关系问题。然而,自注意力机制的应用主要集中在序列到序列(Seq2Seq)任务上,而在自然语言处理(NLP)领域,尤其是语言模型和文本分类等任务上,传统的RNN和LSTM模型仍然是主要的方法。2018年,GoogleBrain团队在NLP领域中推出了一种新的Transformer模型,名为BERT(Bidi

全新最全Stable Diffusion 提示词资料包,你值得拥有!!!!

StableDiffusion无疑是最近最火的AI绘画工具之一,所以本期给大家带来了全新StableDiffusion提示词资料包(文末可获取)StableDiffusion提示词是什么?提示词是prompt翻译过来的词汇,在我们业内人称之为关键词、咒语,在StableDiffusion中一般分为正向提示词和负向提示词。打个比方现实中你想画一朵花,那么你会拿起画笔;如果你想利用AI绘画,那么现在你将打开AI绘画软件,告诉电脑,我想画一朵花。但如何让电脑正确的读懂你的想法?这里你就只能以电脑的语言告诉他,在软件里输入你想要让他画的内容,例如输入“flower”,这就是最简单的提示词。要知道一幅画

Ring Co-XOR encryption based reversible data hiding for 3D mesh model

期刊:SignalProcessing作者:LingfengQuetal.--摘要:加密域可逆数据隐藏被广泛应用于云存储数字媒体的内容安全、隐私保护和便捷管理。然而,RDH-ED技术在三维网格模型载体中的应用研究仍处于起步阶段。为解决现有针对三维网格模型的RDH-ED算法需要像第三方传输辅助信息,嵌入容量不高等问题,本文提出一种基于环的协同异或加密(RCXOR)的可逆数据隐藏方案。首先,将原始3D网格模型划分为互不重叠的环,不同的环不存在共享顶点。接着,对同一个环中的顶点用相同的随机数按位异或加密,以保留加密后环中相邻顶点的冗余。最后,基于RCXOR加密提出一种基于环心顶点的多MSB预测方法,

hadoop - Apache Spark : Apply existing mllib model on Incoming DStreams/DataFrames

使用ApacheSpark的mllib,我有一个存储在HDFS中的逻辑回归模型。此逻辑回归模型是根据来自某些传感器的历史数据进行训练的。我有另一个spark程序,它使用来自这些传感器的流数据。我希望能够使用预先存在的训练模型对传入的数据流进行预测。注意:我不希望我的模型被这些数据更新。要加载训练模型,我必须在我的代码中使用以下行:vallogisticModel=LogisticRegressionModel.load(sc,)sc:Spark上下文。但是,这个应用程序是一个流应用程序,因此已经有一个“StreamingContext”设置。现在,根据我的阅读,在同一个程序中有两个上下

AIGC实战——自回归模型(Autoregressive Model)

AIGC实战——自回归模型0.前言1.长短期记忆网络基本原理2.Recipes数据集3.处理文本数据3.1文本与图像数据处理的差异3.2文本数据处理步骤4.构建LSTM模型4.1模型架构4.2LSTM计算流程4.3训练LSTM5.LSTM模型分析小结系列链接0.前言自回归模型(AutoregressiveModel)通过将生成问题视为一个序列过程来简化生成模型。自回归模型将预测条件建立在序列中的先前值上,而不是一个以随机潜变量为条件。因此,自回归模型尝试对数据生成分布进行显式建模,而不是尝试近似数据分布。在本节中,将介绍一类经典的自回归模型,长短期记忆网络(LongShort-TermMemo

Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models ----论文阅读

Vary预备知识CLIPQwen-7BVicuna-7B简介模型产生新视觉词表新词汇网络数据输入格式融合新视觉词表Vary-base结构数据对话格式模型输出结果示例结论Vary的代码和模型均已开源,还给出了供大家试玩的网页demo。感兴趣的小伙伴可以去试试主页:https://varybase.github.io/部分内容参考:https://mp.weixin.qq.com/s/Sg_yHAVVN-yAYT61SNKvCA预备知识CLIP官网:https://openai.com/research/clip(要了解的建议看这个,篇幅少点,论文中大量篇幅是介绍实验的)论文:https://ar

【资源】stable diffusion常用checkpoint

翻墙下载实在太慢了,还不稳定,就把常用的一些checkpoint传网盘了,需要自取~clip-vit-large-patch14脸书:openai/clip-vit-large-patch14·HuggingFace链接:https://pan.baidu.com/s/1dg3XQmcYMoHtNKLqlrBVzQ?pwd=bt1q 提取码:bt1qSD压缩了还是很大,传不上去,网盘一个上传文件不能大于4GB...汇总文件夹链接:https://pan.baidu.com/s/18x9WRobe2XXNb6hvKE0lVA?pwd=lhmq 提取码:lhmq

萤火跑模型 | 高性能 Stable Diffusion 助力高质量 AI 绘图

StableDiffusionAI绘画最近成功破圈,成了炙手可热的热门话题。DALLE,GLIDE,StableDiffusion等基于扩散机制的生成模型让AI作图发生质变,让人们看到了“AI转成生产力”的曙光。在这些扩散模型中,StableDiffusion以其优秀的效果和开源的权重成为了其中的代表,受到广泛的关注和体验。其基于Laion5B超大规模“文本-图像”对数据集,StableAI宣称用了5000张A100耗时几个月训练而成。幻方AI近期在萤火二号上使用GoogleCaption数据集复现了StableDiffusion的训练,并进行了优化。通过幻方自研的hfai.pl插件将源代码P

Stable Diffusion 系列教程 - 3 模型下载和LORA模型的小白入门

首先,一个比较广泛的模型下载地址为:CivitaiModels|DiscoverFreeStableDiffusionModels黄框是一些过滤器,比如checkpoints可以理解为比如把1.5版本的SD模型拷贝一份后交叉识别新的画风或场景后得到的模型,可以单独拿出来使用。Hypernetwork和lora在特定场景下都非常好用。我们以majicMIXrealistic麦橘写实模型为例子,点开:点开一张照片,我们能看到生成这张照片的提示词和负提示词以及cfgscale,甚至往下拉还有推荐的优质参数和评论区。下载好模型后,将其放到stablediffusion-webui--->models-