草庐IT

AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发

中杯可乐多加冰 2024-06-14 原文

0、AI画师二维版的出圈

最近AI画师的杰出表现让人惊讶无比,2022虽然不是ai绘图这项技术诞生的时间,但却是到目前为止最爆火出圈的绘图元年,现在市场上也已经有了很多成熟的AI绘画APP:用户仅需打开相应的AI绘画软件,在创作页面,只需要输入相应的关键词,你想生成什么样的画就输入什么关键词,然后点击创作,十几秒后,一幅惊艳的画作就生成了,如下都是NovelAI生成的图像:

1、AI画师三维版的兴起

然而最近,二维版的绘画领域已经满足不了AI了,AI已经开始进入3D世界,直接一句话/一张图,生成3D模型、立体人像、全方位环绕视频,输入简单的文本提示,就能生成3D模型,比如

  1. 一幅美丽的花树画,Chiho Aoshima风格,长镜头,超现实主义:
  2. 青蛙穿着毛衣;蛋壳裂成两半,旁边站着一只可爱的小鸡
  3. 一张美丽的天空城市的插图,吉卜力工作室,艺术站,8k HD”

可以看到生成的模型不仅可以渲染生动的物体形状,还可以渲染合理的光线、颜色、密度,更重要的是,生成的3D模型还可以导出到网格中,用建模软件进一步加工

2、Dreamfields-3D AI画师三维版试玩

前不久Dreamfields-3D已经宣布开源,并且提供了colab地址

这意味着AI画师三维版玩法十分低门槛,对我们本地机器没有任何硬性配置要求,直接在线就可以colab试玩了。大致只需要三步。这里我们介绍一下colab上在线玩的步骤:

2.1、第一步:进入colab

首先打开Dreamfields-3D的colab试玩地址,可以看到,Dreamfields-3D的Jupyter Notebook代码:

展开可以看到,其分为三大部分:①机器检查;②环境安装;③训练和测试

2.2、第二步:连接Google云端硬盘

点击check the machine的运行按钮

代码需要连接Google云端硬盘读写文件,点击连接。

2.3、第三步:配置参数 开始运行

配置一下training和test的设置参数,保存格式有视频和网格两种,输出模型格式为带顶点色的obj和ply。如果你只是简单试玩,可以选择不动他的参数。

然后依次点击运行按钮就可以开始试玩了,初始训练轮数为200轮,每轮运行时间大概需要1分钟,每10轮会进行一次输出,可以观看每10轮的效果:

等待训练完成后,就可以输入自己想要的文本来生成3D模型啦。

3、DreamFusion 原理分析

上节我们体验的是Dreamfields-3D,可以看到虽然可以生成模型,但是看起来效果并不是很好,风格比较诡异,而前不久Google Research在Dreamfields-3D基础上做了改进,发布了最新成果DreamFusion,让生成模型的形态、颜色、光线、密度有巨大的飞跃,虽然 Dreamfusion 还未开放使用,但项目网站提供了生成画廊:DreamFusion预览地址

直接训练一个text-to-3D的模型非常困难,因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对,但并不存在如此大规模的3D标注数据,目前也没有一个高效的模型架构对3D数据进行降噪。DreamFusion先使用一个预训练2D扩散模型基于文本提示生成一张二维图像,然后引入一个基于概率密度蒸馏的损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。

在DreamFusion中,使用了一个预先训练的二维文本到图像扩散模型,扩散模型是潜在变量生成模型,它学习将样本从可控制的噪声分布逐渐转换为数据分布。

评分蒸馏采样的损失函数叫SDS,其代替CLIP通过文本到图像的Imagen扩散模型来计算损失。用评分蒸馏采样来表示生成过程中的损失,通过不断优化最小化这种损失,
通过优化实现可控制的采样,从而输出质量良好的3D模型。

除此之外,与Dream Fields相比,Dreamfusion通过文本提示生成高质量、深度和普通的背光3D对象。使用Dreamfusion生成的多个3D模型也可以缝合到一个场景中,比如下图,迭代地细化一个示例文本提示,同时从四个不同的方面渲染每个生成的场景:

Dreamfusion从随机的相机位置和角度反复渲染NeRF的视图,用这些渲染结果作为环绕Imagen的分数蒸馏损失函数的输入。每次迭代都包含四步:①随机采样一个相机和灯光;②从该相机和灯光下渲染NeRF的图像;③计算SDS损失相对于NeRF参数的梯度;④使用优化器更新NeRF参数。

例子:冲浪板上孔雀的单反照片:

4、文本生成3D模型的未来

作为一名人工智能领域研究生,早在21年上半年,我就开始深入文本生成图像领域,可以说,领域内一年半来的发展真的非常迅速,目前都已经有很多比较成熟的商业应用,自从文本引导的图像生成模型火了以后,画家群体迅速扩张,不会用画笔的人也能发挥想象力进行艺术创作。

那么对于文本生成3D这个新的领域,未来AI用于模型设计辅助的潜力也是值得期待,不仅能帮助画师进行设计,也许还能帮助建模师/设计师进行3D建模、产品设计、学术建模、建筑设计、元宇宙开发等等,潜力无限,为何不现在就开始学习新工具,开始全新的创意探索呢?

💡 最后

我们已经建立了🏤T2I研学社群,如果你对Dreamfields和DreamFusion还有其他疑问或者对🎓文本生成图像/文本生成3D方向很感兴趣,可以点击下方链接或者私信我加入社群

📝 加入社群 抱团学习中杯可乐多加冰-采苓AI研习社

🔥 限时免费订阅文本生成图像T2I专栏

🎉 支持我:点赞👍+收藏⭐️+留言📝

有关AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发的更多相关文章

  1. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  2. Unity 热更新技术 | (三) Lua语言基本介绍及下载安装 - 2

    ?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------

  3. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

  4. Unity 3D 制作开关门动画,旋转门制作,推拉门制作,门把手动画制作 - 2

    Unity自动旋转动画1.开门需要门把手先动,门再动2.关门需要门先动,门把手再动3.中途播放过程中不可以再次进行操作觉得太复杂?查看我的文章开关门简易进阶版效果:如果这个门可以直接打开的话,就不需要放置"门把手"如果门把手还有钥匙需要旋转,那就可以把钥匙放在门把手的"门把手",理论上是可以无限套娃的可调整参数有:角度,反向,轴向,速度运行时点击Test进行测试自己写的代码比较垃圾,命名与结构比较拉,高手轻点喷,新手有类似的需求可以拿去做参考上代码usingSystem.Collections;usingSystem.Collections.Generic;usingUnityEngine;u

  5. [Vuforia]二.3D物体识别 - 2

    之前说过10之后的版本没有3dScan了,所以还是9.8的版本或者之前更早的版本。 3d物体扫描需要先下载扫描的APK进行扫面。首先要在手机上装一个扫描程序,扫描现实中的三维物体,然后上传高通官网,在下载成UnityPackage类型让Unity能够使用这个扫描程序可以从高通官网上进行下载,是一个安卓程序。点到Tools往下滑,找到VuforiaObjectScanner下载后解压数据线连接手机,将apk文件拷入手机安装然后刚才解压文件中的Media文件夹打开,两个PDF图打印第一张A4-ObjectScanningTarget.pdf,主要是用来辅助扫描的。好了,接下来就是扫描三维物体。将瓶

  6. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

  7. ruby-on-rails - 用于门户的 Ruby 技术 - 2

    我刚刚看到whitehouse.gov正在使用drupal作为CMS和门户技术。drupal的优点之一似乎是很容易添加插件,而且编程最少,即重新发明轮子最少。这实际上正是Ruby-on-Rails的DRY理念。所以:drupal的缺点是什么?Rails或其他基于Ruby的技术有哪些不符合whitehouse.org(或其他CMS门户)门户技术的资格? 最佳答案 Whatarethedrawbacksofdrupal?对于Ruby和Rails,这确实是一个相当主观的问题。Drupal是一个可靠的内容管理选项,非常适合面向社区的站点。它

  8. python - Ruby 或 Python 的 3d 游戏引擎? - 2

    关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion是否有适用于这些的3d游戏引擎?

  9. iNFTnews | 周杰伦18年前未发布的作品Demo,藏在了区块链技术里 - 2

    当音乐碰上区块链技术,会擦出怎样的火花?或许周杰伦已经给了我们答案。8月29日下午,B站独家首发周杰伦限定珍藏Demo独家访谈VCR,周杰伦在VCR里分享了《晴天》《青花瓷》《搁浅》《爱在西元前》四首经典歌曲Demo背后的创作故事,并首次公布18年前未发布的神秘作品《纽约地铁》的Demo。在VCR中,方文山和杰威尔音乐提及到“多亏了区块链技术,现在我们可以将这些Demos,变成独一无二具有收藏价值的艺术品,这些Demos可以在薄盒(国内数藏平台)上听到。”如何将音乐与区块链技术相结合,薄盒方面称:“薄盒作为区块链技术服务方,打破传统对于区块链技术只能作为数字收藏的理解。聚焦于区块链技术赋能,在

  10. 【自动驾驶环境感知项目】——基于Paddle3D的点云障碍物检测 - 2

    文章目录1.自动驾驶实战:基于Paddle3D的点云障碍物检测1.1环境信息1.2准备点云数据1.3安装Paddle3D1.4模型训练1.5模型评估1.6模型导出1.7模型部署效果附录show_lidar_pred_on_image.py1.自动驾驶实战:基于Paddle3D的点云障碍物检测项目地址——自动驾驶实战:基于Paddle3D的点云障碍物检测课程地址——自动驾驶感知系统揭秘1.1环境信息硬件信息CPU:2核AI加速卡:v100总显存:16GB总内存:16GB总硬盘:100GB环境配置Python:3.7.4框架信息框架版本:PaddlePaddle2.4.0(项目默认框架版本为2.3

随机推荐