在3D生成领域,根据文本提示创建高质量的3D人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程,如3D人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化3D内容生成,此前的一些典型工作(比如DreamFusion[1])提出了分数蒸馏采样(ScoreDistillationSampling),通过优化3D场景的神经表达参数,使其在各个视角下渲染的2D图片符合大规模预训练的文生图模型分布。然而,尽管这一类方法在单个物体上取得了不错的效果,我们还是很难对具有复杂关节的细粒度人体进行精确建模。为了引入人体结构先验,最近的文本驱动3D人体生成研究将