草庐IT

学习AI

全部标签

(2024,提示优化,监督微调,强化学习,近端策略优化)用于安全生成文本到图像的通用提示优化器

UniversalPromptOptimizerforSafeText-to-ImageGeneration公和众和号:EDPJ(进Q交流群:922230617或加VX:CV_EDPJ进V交流群)目录0.摘要2.相关工作3.提议的框架4.实验0.摘要文本-图像(Text-to-Image,T2I)模型在基于文本提示生成图像方面表现出色。然而,这些模型对于不安全的输入以生成不安全的内容,如性、骚扰和非法活动图像,存在脆弱性。现有的基于图像检查器、模型微调和嵌入阻止的研究在实际应用中是不切实际的。因此,我们提出了第一个在黑盒情景中用于安全T2I生成的通用提示优化器。我们首先通过GPT-3.5Tur

【AI绘画】Stablediffusion必不可少的使用方法之Lora(2)

各位小伙伴们大家好,在上期我们讲过了Lora的原理和使用前景,那么这期主要要说的就是Lora应该如何使用!前提是各位小伙伴们已经下载好了Lora,Lora文件需要放在Webui文件夹内的models中的Lora目录内。Lora的使用方法有三个:(1)直接输入:在提示词框内输入,也可以输入来自己调节Lora的权重(2)附加模型选单添加:如图所示,在提示词下方的选框里,可以直接选择Lora,也可以在内检索你所需要的Lora,在这里提示一下,Lora你可以自己改名称(注意不要中文和空格),也可以用其生成图后更换你的Lora展示图片,以便你更好的区别各种Lora的风格(3)附加网络扩展:Additio

TensorFlow Slim导出传输学习到TensorFlow服务问题

任何帮助将非常感激。我遵循了这个教程然后,我使用这个简单的脚本来验证我的模型是否有效:importtensorflowastffromnetsimportinception_v3frompreprocessingimportinception_preprocessingfrommatplotlib.pyplotimportimshow,imreadslim=tf.contrib.slimbatch_size=5image_size=299withtf.Graph().as_default():withslim.arg_scope(inception_v3.inception_v3_arg_sc

追赶OpenAI的Sora:Meta开源V-JEPA,让AI学会认识世界!

就在Sora疯狂刷屏那天,还有两款重磅产品发布:一个是谷歌的Gemini1.5,首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。有趣的是,在功能方面V-JEPA与Sora有很多相似之处,例如,都具备让AI学会如何通过自我监督学习认识、模拟世界,以提升生成视频的质量、表示学习方法和扩大视频训练数据范围。可惜那天全世界的目光都聚焦在Sora身上,让图灵奖获得者,Meta首席科学家YannLeCuns气的直跺脚,在社交平台上各种酸Sora的成果。开源地址:https://github.com/facebookresearch/jepa论文地址:htt

【Git学习-远程仓库高级操作】

文章目录Git远程仓库高级操作上节回顾本节内容gitpush的参数1gitpush的参数2gitfetch的参数gitpull的参数没有source的source总结Git远程仓库高级操作本节主要介绍Git远程仓库操作参数形式上节回顾在上一节中我们主要讲解了Git远程仓库的一些操作,包括克隆、拉取、推送等。gitclonegit链接;//克隆远程仓库到本地gitfetch;//从远程仓库获取数据,此时本地中的远程分支会指向最新的提交记录,但是本地的分支不会发生改变gitpull;//从远程仓库和获取数据,并合并到本地分支,相当于gitfetch和gitmerge两个命令gitpush;//推送

本周硅谷发生了什么?|OpenAI推出5项更新;微软组建新的AI团队;Googe发布文生视频模型Lumiere

一周纵览本周硅谷大厂最值得关注的,是各家的大模型均有不少上新。OpenAI宣布了多项模型更新,同时发布了GPT-4Turbo预览模型,提升了代码生成能力。Google发布文本生成视频模型Lumiere,生成视频在运动幅度和一致性表现良好。微软集中公司内部顶尖AI研究人员力量,组建新的GenAI团队研发小模型,减少对OpenAI的依赖。AdeptAI发布多模态模型Fuyu-Heavy,官方称跑分表现仅次于GPT4-V和GeminiUltra。同时,国内大模型也有不少进展,通义千问团队升级了视觉语言模型Qwen-VL,图片内文字处理能力得到提升。此外,第四批国产AI大模型备案获批,14款大模型及产

C++后端开发之Sylar学习三:VSCode连接Ubuntu配置Gitee

C++后端开发之Sylar学习三:VSCode连接Ubuntu配置Gitee为了记录学习的过程,学习Sylar时写的代码统一提交到Gitee仓库中。Ubuntu配置Gitee安装gitsudoapt-getinstall-ygit配置用户名和邮箱gitconfig--globaluser.name用户名(Gitee的用户名)gitconfig--globaluser.email邮箱(Gitee绑定的邮箱)生成SSH秘钥ssh-keygen-trsa-C"你配置的邮箱"提示的地方一路按Enter查看SSH密钥cat~/.ssh/id_rsa.pubGitee填入生成的SSH密钥验证是否配置成功s

Stable Diffusion学习笔记

目录1.扩散模型2.DDPM和DDIM3.LatentDiffusionModels4.StableDiffusionModels参考链接1.扩散模型扩散模型包括两个过程:前向过程和反向过程,其中前向过程即扩散过程。前向过程和反向过程都是一个参数化的马尔可夫链(Markovchain),其中反向过程可以用来生成数据。扩散过程扩散过程即对数据逐渐增加高斯噪音直至数据变成随机噪音的过程。,即每一步采用的方差,varianceschedule或noise schedule,介于0-1之间,满足。所以在一个设计好的varianceschedule下,如果T足够大,则将完全丢失原始数据从而变成一个随机噪

AI新工具(20240228) EMO - 阿里巴巴的表情驱动的音频到视频转换框架;DepthFlow;Globe Explorer等

EMO-阿里巴巴的表情驱动的音频到视频转换框架EMO(EmotePortraitAlive)是一个先进的表情驱动的音频到视频转换框架,可以通过音频(比如说话或唱歌的声音)和一张单独的参考图片,生成带有丰富面部表情和头部姿势变化的肖像视频。这个框架的显著特点是能够根据音频的长度,生成任意时长的视频,同时保持角色身份的一致性。无论是处理不同语言的歌曲、使古代画像动起来,还是生成具有逼真动作和表情的三维或AI生成内容,EMO都能够轻松应对,注入生动的动态效果。此外,它还能够驾驭快速节奏,确保快速歌词与角色动画的同步。https://humanaigc.github.io/emote-portrait

AI大预言模型——ChatGPT在地学、GIS、气象、农业、生态、环境等应用

原文链接:AI大预言模型——ChatGPT在地学、GIS、气象、农业、生态、环境等应用一开启大模型1开启大模型1)大模型的发展历程与最新功能2)大模型的强大功能与应用场景3)国内外经典大模型(ChatGPT、LLaMA、Gemini、DALL·E、Midjourney、StableDiffusion、星火大模型、文心一言、千问等)4)如何优雅使用大模型案例1.1:开启不同平台的大模型案例1.2:GPT不同版本的使用案例1.3:大模型文件上传和处理二基于ChatGPT大模型提问框架2提问框架(提示词、指令)1)专业大模型提示词,助你小白变专家2)超实用的通用提示词和提问框架3)GPTstore(