草庐IT

ControlNet star量破万!2023年,AI绘画杀疯了?

机器之心 2023-03-28 原文
从骑马的宇航员到三次元小姐姐,在不到一年的时间里,AI 绘画似乎已经取得了革命性的进展。

这个「骑马的宇航员」由 OpenAI 2022 年 4 月推出的文生图模型 DALL・E 2 绘制。它的前辈 ——DALL・E 在 2021 年向人们展示了直接用文本生成图像的能力,打破了自然语言与视觉的次元壁。在此基础上,DALL・2 更进一步,允许人们对原始图像进行编辑,比如在画面中添加一只柯基。这一个看似简单的操作其实体现了 AI 绘画模型可控性的提升。

不过,就影响力而言,2022 年最火的文生图模型并不是 DALL・E 2,而是另一个和它功能相似的模型 ——Stable Diffusion。和 DALL・E 2 一样,Stable Diffusion 也允许创作者对生成的图像进行编辑,但优势在于,这个模型是开源的,而且可以在消费级 GPU 上运行。因此,在 2022 年 8 月发布之后,Stable Diffusion 迅速走红,短短几个月就成了最火的文生图模型。


在此期间,人们也在进一步探索各种控制这类模型的方法,比如 Stable Diffusion 背后团队之一的 Runway 公司发布了一个图像擦除和替换(Erase and Replace)工具,该工具可以修改图像任何部分。用户需要做的就是擦除该区域并编写自然语言描述,剩下的交给程序就可以了。

谷歌和波士顿大学的研究者则提出了一种「个性化」的文本到图像扩散模型 DreamBooth,用户只需提供 3~5 个样本 + 一句话,AI 就能定制照片级图像。

此外,来自 UC 伯克利的研究团队还提出了一种根据人类指令编辑图像的新方法 InstructPix2Pix​,这个模型结合了 GPT-3 和 Stable Diffusion。给定输入图像和告诉模型要做什么的文本描述,模型就能遵循描述指令来编辑图像。例如,要把画中的向日葵换成玫瑰,你只需要直接对模型说「把向日葵换成玫瑰」。

进入 2023 年,一个名为 ControlNet 的模型将这类控制的灵活度推向了高峰。

ControlNet 的核心思想是在文本描述之外添加一些额外条件来控制扩散模型(如 Stable Diffusion),从而更好地控制生成图像的人物姿态、深度、画面结构等信息。

这里的额外条件以图像的形式来输入,模型可以基于这张输入图像进行 Canny 边缘检测、深度检测、语义分割、霍夫变换直线检测、整体嵌套边缘检测(HED)、人体姿态识别等,然后在生成的图像中保留这些信息。利用这一模型,我们可以直接把线稿或涂鸦转换成全彩图,生成具有同样深度结构的图等等,通过手部关键点还能优化人物手部的生成。

这一模型在 AI 绘画领域掀起了巨浪,相关项目 GitHub star 量已破万。

项目链接:https://github.com/lllyasviel/ControlNet

虽然当前很多人只是用它来生成二次元、三次元小姐姐,但其更广泛的用途也被逐渐挖掘出来,比如房屋设计、摄影摄像、影视制作、广告设计等。在这些场景中,ControlNet 被拿来和之前的一些工具一起使用,比如处理大模型微调问题的 LoRA、视频 - 动画转换工具 EbSynth 等。这些工具的组合应用加速了 AI 绘画模型与生产过程的融合。


利用 ControlNet 和 EbSynth 等工具重新进行室内装潢设计。图源:https://creativetechnologydigest.substack.com/p/controlling-artistic-chaos-with-controlnet  (内附完整教程)

利用 ControlNet 和 Houdini 工具生成 3D 模型。图源:​​https://www.reddit.com/r/StableDiffusion/comments/115eax6/im_working_on_api_for_the_a1111_controlnet/​

用 Dreambooth 和 ControlNet 改变 2D 图像光照,可用于照片、视频的后期制作。图源:​​https://www.reddit.com/r/StableDiffusion/comments/1175id9/when_i_say_mindblowing_i_mean_it_new_experiments/​

用 ControlNet 和 EbSynth 实现动画转真人。虽然效果还不太好,但已经显示出了把动漫改编成真人版但无需演员出镜的潜力。图源 ​​https://www.reddit.com/r/StableDiffusion/comments/117ewr9/anime_to_live_action_with_controlnet_ebsynth_not/​

某设计师利用 ControlNet 生成的著名品牌「新 logo」。图源:https://twitter.com/fofrAI/status/1628882166900744194

惊喜之余,这些技术的进展也让绘画等领域的从业者陷入焦虑和愤怒。焦虑的是,AI 可能会夺走自己的饭碗。愤怒的是,AI 生成的图像很多是对当前画师的抄袭和模仿,画师的知识产权受到了侵犯。

图源:https://www.zhihu.com/question/583294094

在这些问题尚未解决的情况下,AI 绘画在画师圈成了一个尖锐的问题。很多人认为大家应该一起抵制 AI 绘画,共同捍卫自己的权益。因此,当某知名画师疑似采用 AI 绘画为某游戏工作室供稿的消息传开后,其他画师们被彻底激怒。

同时被激怒的还有游戏玩家。由于目前 AI 绘画还存在一些局限,比如处理不好手部细节(仔细观察本文第一张图的小姐姐可以看出来),达不到玩家所要求的美术视觉效果精湛、人物富有个性和创意等要求,很多玩家产生了「被糊弄」的感觉。因此,上述游戏工作室只能紧急发布声明,称「不会在产品中使用 AI 作画」。

但这种情况会持续多久呢?当 AI 绘画的水平达到肉眼难以分辨的程度,你怎么知道你玩的游戏究竟出自画师还是 AI,亦或二者组成的「团队」?

图源:https://m.weibo.cn/2268335814/4870844515358190

或许再过几个月,AI 绘画工具就会像程序员使用的 Copilot 一样,成为绘画师日常工作必不可少的工具。当然,这也在无形中提高了这一行业的门槛,正如已经被 AI「入侵」的其他行业一样。如何在这样的浪潮中保持自己的竞争力可能是每个人都应该思考的问题。

有关ControlNet star量破万!2023年,AI绘画杀疯了?的更多相关文章

  1. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  2. 华为OD机试真题 C++ 实现【带传送阵的矩阵游离】【2023 Q2 | 200分】 - 2

            所有题目均有五种语言实现。C实现目录、C++实现目录、Python实现目录、Java实现目录、JavaScript实现目录题目n行m列的矩阵,每个位置上有一个元素你可以上下左右行走,代价是前后两个位置元素值差的绝对值.另外,你最多可以使用一次传送阵(只能从一个数跳到另外一个相同的数)求从走上角走到右下角最少需要多少时间。输入描述:第一行两个整数n,m,分别代表矩阵的行和列。后面n行,每行m个整数,分别代表矩阵中的元素。输出描述:一个整数,表示最少需要多少时间。

  3. IDEA 2023.1 正式发布,新特性简介 - 2

     昨晚看到IDEA官推宣布IntelliJIDEA2023.1正式发布了。简单看了一下,发现这次的新版本包含了许多改进,进一步优化了用户体验,提高了便捷性。至于是否升级最新版本完全是个人意愿,如果觉得新版本没有让自己感兴趣的改进,完全就不用升级,影响不大。软件的版本迭代非常正常,正确看待即可,不持续改进就会慢慢被淘汰!根据官方介绍:IntelliJIDEA2023.1针对新的用户界面进行了大量重构,这些改进都是基于收到的宝贵反馈而实现的。官方还实施了性能增强措施,使得Maven导入更快,并且在打开项目时IDE功能更早地可用。由于后台提交检查,新版本提供了简化的提交流程。IntelliJIDEA

  4. 未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2

    文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们

  5. 焕新古文化传承之路,AI为古彝文识别赋能 - 2

    目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、

  6. 2023爱分析·流程中台市场厂商评估报告:微宏科技 - 2

     目录1. 研究范围定义2. 流程中台市场分析3. 厂商评估:微宏科技4. 入选证书 1.   研究范围定义近年来,随着外部市场环境快速变化、客户需求愈发多样,企业逐渐意识到,自身业务需要更加敏捷、高效,具备根据市场需求快速迭代的能力。业务流程的自动化能够帮助企业实现业务的敏捷高效,因此受到越来越多企业的关注。企业的“自动化武器库”品类丰富,包括低/零代码平台、RPA、BPM、AI等。企业可以使用多项自动化工具,但结果往往是各项自动化工具处于各自的“自动化烟囱”之中,仅能实现碎片式自动化。例如,某企业的IT团队可能在使用低代码平台、财务团队可能在使用RPA、呼叫中心则可能在使用聊天机器人。自动

  7. 连续3天3场分享,KubeVela@KubeCon EU 2023 抢鲜看! - 2

    自从2019年OpenApplicationModel诞生以来,KubeVela已经经历了几十个版本的变化,并向现代应用程序交付先进功能的方向不断发展。最近,KubeVela完成了向CNCF孵化项目的晋升,标志着社区的发展来到一个新的里程碑。今天,KubeVela社区内活跃着大量来自全球的开发者,共同推动KubeVela项目的落地和发展。在即将开幕的KubeCon+CloudNatvieConEurope2023上,我们惊喜地发现,连续3天,KubeVela项目的贡献者、企业用户和来自阿里云的核心维护者,将从不同角度展对KubeVela项目的分享。让我们先睹为快!🎙️BuildingaPlat

  8. 华为OD机试 -旋转骰子(Python) | 机试题算法思路 【2023】 - 2

    最近更新的博客华为OD机试-卡片组成的最大数字(Python)|机试题算法思路华为OD机试-网上商城优惠活动(一)(Python)|机试题算法思路华为OD机试-统计匹配的二元组个数(Python)|机试题算法思路华为OD机试-找到它(Python)|机试题算法思路华为OD机试-九宫格按键输入(Python)|机试算法备考思路华为OD机试-身高排序(Python)|备考思路使用说明参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。华为OD清单查看地址:blog.csdn.net/hihell/catego

  9. 2023年6月DAMA-CDGP数据治理专家认证请尽快报名啦! - 2

    目前6月DAMA-CDGP数据治理认证考试开放报名地区有:北京、上海、广州、深圳、长沙、呼和浩特。目前南京、济南、西安、杭州等地区还在接近开考人数中,打算参加6月考试的朋友们可以抓紧时间报名啦!!!5月初,DAMA-CDGA/CDGP数据治理认证考前班也即将开班啦!报名从速!!!DAMA认证为数据管理专业人士提供职业目标晋升规划,彰显了职业发展里程碑及发展阶梯定义,帮助数据管理从业人士获得企业数字化转型战略下的必备职业能力,促进开展工作实践应用及实际问题解决,形成企业所需的新数字经济下的核心职业竞争能力。DAMA是数据管理方面的认证,帮助数据从业者提升数据管理能力。CDGP数据治理专家认证属于

  10. 华为OD机试模拟题 用 C++ 实现 - 删除指定目录(2023.Q1) - 2

    最近更新的博客【华为OD机试模拟题】用C++实现-最多获得的短信条数(2023.Q1))文章目录最近更新的博客使用说明删除指定目录题目输入输出示例一输入输出说明Code使用说明参加华为od机试,一定要注意不要完全背诵代码,需要理解之后模仿写出,通过率才会高。华为OD清单查看地址:https://blog.csdn.net/hihell/catego

随机推荐