草庐IT

爱因斯坦霉霉同框只需15秒,最新可控AI一玩停不下来,在线试玩已出

白交 2023-03-28 原文
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

现在,AI绘画完全可以做到指哪打哪了!

这边哈士奇,那边牧羊犬,背景在下雪天。

啪叽!一幅画就这么完成了。

这个最新MultiDiffusion模型,不管选的区域位置有多离谱,它都能给你画出指定的东西来。

比如,你能看到大象和奶牛同时握草??

而且在线可试,亲测大概15秒就能出,你甚至可以看到泰勒与爱因斯坦跨时空同框。

要知道以前AI绘画最大的一个bug就是不可控,但现在人类拥有了更多的控制权。

总之就是,想画什么就画什么,想往哪画就往哪画!

有网友赶紧上手试了试:Not Bad!

想往哪画就往哪画

从效果来看,主要有三个方面的应用。

  • 文本到高分辨率全景生成;
  • 精确区域生成;
  • 任意长宽比粗略区域生成。
首先,只需要一句话,就可以生成512*4609分辨率的全景图。

一张有滑雪者的雪山顶峰的照片。

摄影师也不用爬楼了,直接获得城市夜景图。

当然更为主体功能,那就是给特定区域单独提示,然后AI绘画就来指哪画哪。

比如在黑色部分是一个明亮的盥洗室,红色区域是一面镜子、蓝色部分是花瓶、黄色部分是白色的水槽。

就这么随手一个拼图画,结果就生成了真实场景。

不过也有一些bug,像一些超现实的,他就有点太天马行空了。

比如三体人在宇宙中大战人类。

当然也可以无需那么精确,只需标个大致位置,还支持任意长宽比的图像。

蓝色部分是埃菲尔铁塔、红色是粉色的云、绿色是热气球 。

关键是各种构图都十分地合理、场景效果以及实际物体相对大小也都十分精准。

图像生成可控

背后的这个模型叫做MultiDiffusion,这是一个统一的框架,能实现多功能和可控的图像生成。

以往即便Diffusion模型给图像生成带来变革性影响,但用户对生成图像的可控性、以对新任务的快速适应仍是不小的挑战。

研究人员主要是通过重新训练、微调,或者另外开发工具等方式来解决。前不久爆火插件ControlNet正是解决了图像生成的可控性,

而MultiDiffusion无需进一步训练或微调,就可一次实现对生成内容的多种灵活控制,包括期望的长宽比、空间引导信号等。

简单来说,MultiDiffusion的关键在于,在预先训练好的扩散模型上定义一个全新的生成过程。从噪声图像开始,在每个生成步骤中,解决一个优化任务。

然后再将多个扩散生成过程与一组共享的参数或约束结合起来,目标是将每个部分都尽可能去接近去噪版本。

即便有时候每个步骤都可能会将图像拉向不同的方向,但最终融合到一个全局去噪步骤当中,得到一个无缝图像。

来自魏茨曼科学研究所

这篇论文主要来自位于以色列雷霍沃特的魏茨曼科学研究所。

两位共同一作Omer Bar-Tal、Lior Yariv分别是魏兹曼科学研究院计算机科学和应用数学系的研究生和博士生,后两位分别是他们的导师。

△左:Omer Bar-Tal;右:Lior Yariv

好了,感兴趣的旁友可戳下方试一试哦!

​https://huggingface.co/spaces/weizmannscience/MultiDiffusion​
主页链接:
​https://multidiffusion.github.io/​
论文链接:https://arxiv.org/abs/2302.08113

有关爱因斯坦霉霉同框只需15秒,最新可控AI一玩停不下来,在线试玩已出的更多相关文章

  1. ruby - 检查网络文件是否存在,而不下载它? - 2

    是否可以在不实际下载文件的情况下检查文件是否存在?我有这么大的(~40mb)文件,例如:http://mirrors.sohu.com/mysql/MySQL-6.0/MySQL-6.0.11-0.glibc23.src.rpm这与ruby​​不严格相关,但如果发件人可以设置内容长度就好了。RestClient.get"http://mirrors.sohu.com/mysql/MySQL-6.0/MySQL-6.0.11-0.glibc23.src.rpm",headers:{"Content-Length"=>100} 最佳答案

  2. Python学习15:恺撒密码 B(python123) - 2

    描述恺撒密码是古罗马凯撒大帝用来对军事情报进行加解密的算法,它采用了替换方法对信息中的每一个英文字符循环替换为字母表序列中该字符后面的第三个字符,即,字母表的对应关系如下:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬原文:ABCDEFGHIJKLMNOPQRSTUVWXYZ‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪

  3. 未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2

    文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们

  4. 焕新古文化传承之路,AI为古彝文识别赋能 - 2

    目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、

  5. ruby-on-rails - 在 El Capitan 上安装 Rails 时出现 -lgmp 错误的库未找到(Mac OS 10.11.1 (15B42)) - 2

    在使用Rubyv2.2.2的ElCapitan(MacOSX10.11.1)上安装Rails时,出现以下错误:ERROR:Errorinstallingnokogiri:ERROR:Failedtobuildgemnativeextension./Users/jon/.rvm/rubies/ruby-2.2.2/bin/ruby-r./siteconf20151117-26799-ux15fd.rbextconf.rb--use-system-librariescheckingiftheCcompileraccepts...***extconf.rbfailed***Couldnotc

  6. ruby - 针对每一行的多个(15+)正则表达式解析文本正文的最佳方法是什么? - 2

    我有一段文本需要扫描,每行至少包含2部分信息,有时包含4部分信息。问题是每一行可能是15-20种不同操作中的一种。在ruby​​中,当前代码看起来像这样:text.split("\n").eachdo|line|#around20times................expressions['actions'].eachdo|pat,reg|#around20times.................这显然是“问题所在”。通过将所有正则表达式合并为一个,我确实设法使其更快(在C++中提高了50%),但这仍然不是我需要的速度——我需要快速解析数千个这些文件!现在我将它们与正则表达式

  7. ruby-on-rails - 如何在不下载文件的情况下使用其 URL 检查文件是否存在? - 2

    我需要编写代码,通过检查文件的URL来确定文件是否存在。目前我实现了这个:error_code=400;response=Net::HTTP.get_response(URI(url));returnresponse.code.to_i但是,它不能正常工作,因为每次它都下载文件,如果我有大文件或很多文件,这真的很慢。如何在不下载文件的情况下判断远端是否存在文件? 最佳答案 如果你想使用Rubys包含的Net::HTTP那么你可以这样做:uri=URI(url)request=Net::HTTP.newuri.hostresponse

  8. 微机课设 | 基于STC15单片机的简易数字密码锁设计 - 2

    在日常的生活和工作中,住宅与部门的安全防范、单位的文件档案、财务报表以及一些个人资料的保存多以加锁的办法来解决。若使用传统的机械式钥匙开锁,人们常需携带多把钥匙, 使用极不方便, 且钥匙丢失后安全性即大打折扣。在安全技术防范领域,具有防盗报警功能的电子密码锁逐渐代替了传统的机械式密码锁,电子密码锁具有安全性高、成本低、功耗低、易操作等优点。本文主要介绍运用51单片机设计数字密码锁的方法。本设计采用自上而下的数字系统设计方法,将数字密码锁系统分解为若干子系统,并且进一步细划为若干模块,然后用C语言来设计这些模块,通过KEIL软件编译,并且进行实机调试。调试结果表明:该数字密码锁能够效验4位十进制

  9. ruby - 在 Fedora 15 上安装 ruby​​-1.8.7 时出错 - 2

    使用RVM,我尝试在安装Fedora15后安装ree-1.8.7-2011.03,但出现以下错误。在Ubuntu11.04上使用rvminstallree-1.8.7-2011.03工作正常..与Fedora15上的MRIruby​​-1.8.7-p334相同的错误(和解决方案)。关于如何解决这个问题有什么想法吗?make[1]:Enteringdirectory`/home/ryguy/.rvm/src/ree-1.8.7-2011.03/source/ext/dl'gcc-I/opt/local/include-I.-I/opt/local/include-I../..-I../.

  10. 「认识AI:人工智能如何赋能商业」【04】机器学习的商业应用 - 2

    作者|Harper审核 |gongyouliu编辑|auroral-L机器学习的商业应用上期给大家介绍了机器学习的概念,但是理解机器学习最好方法之一,就是了解其在具体商业世界中的各种应用。在道格’罗斯的这本《认识AI,人工智能赋能商业》中,介绍了几类机器学习的商业应用,在这里我给大家归纳一下。第一,数据安全,为了避免被发现,制造恶意软件的人会不断更改代码,通常为2%~10%的修改,但是通过机器学习,安全软件可以适应这一小部分变化,并准确识别新创建的恶意软件。它还可以寻找访问方式的模式,以识别可能的安全威胁。第二,投资。机器学习使得计算机能够处理大量的财务数据,并利用其发现的规律预测市场及每只股

随机推荐