草庐IT

打入AI底层!NUS尤洋团队用扩散模型构建神经网络参数,LeCun点赞

扩散模型,迎来了一项重大新应用——像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层!这就是新加坡国立大学尤洋教授团队联合UCB、MetaAI实验室等机构最新开源的研究成果。具体来说,研究团队提出了一种用于生成神经网络参数的扩散模型p(arameter)-diff。用它来生成网络参数,速度比直接训练最多提高44倍,而且表现毫不逊色。这一模型一经发布,就迅速在AI社区引发强烈讨论,圈内人士对此的惊叹,毫不亚于普通人看到Sora时的反应。甚至有人直接惊呼,这基本上相当于AI在创造新的AI了。就连AI巨头LeCun看了之后,也点赞了这一成果,表示这真的是个cuteidea。而实质上,p

首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型

随着ChatGPT的爆红,多模态领域也涌现出一大批可以处理多种模态输入的对话模型,如LLaVA,BLIP-2等等。为了进一步扩展多模态大模型的区域理解能力,近期新加坡国立大学NExT++实验室和清华大学的研究人员联手打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。作者:张傲,姚远,吉炜,刘知远,ChuaTat-Seng多模态对话模型Demo:https://next-chatv.github.io/论文:https://arxiv.org/pdf/2311.04498.pdf代码:https://github.com/NExT-ChatV/NExT-Chat文章探索了如何

NUS华人团队最新模型,单视图重建3D,又快又准

2D图像的3D重建一直是CV领域的重头戏。层出不同的模型被开发出来试图攻克这个难题。今天,新加坡国立大学的学者共同发表了一篇论文,开发了一个全新的框架Anything-3D来解决这个老大难问题。论文地址:https://arxiv.org/pdf/2304.10261.pdf借助Meta「分割一切」模型,Anything-3D直接让分割后的任意物体活起来了。另外,再用上Zero-1-to-3模型,你就可以得到不同角度的柯基。甚至,还可以进行人物3D重建。可以说,这把真突破了。Anything-3D!在现实世界中,各种物体和各类环境既多样又复杂。所以,在不受限制的情况下,从单一RGB图像中进行三

实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了

ChatGPT的诞生,引爆了2023年的基于大语言模型的AI浪潮,此后各类开源大语言模型陆续问世,包括Flan-T5、Vicuna、LLaMA、Alpaca等。随后,社区继续发力,为模拟这个多模态的世界,研究者们将纯语言的大模型扩展到了处理语言之外的多模态大语言模型,诸如支持图像类的MiniGPT-4、BLIP-2、Flamingo、InstructBLIP等,支持视频类的Video-LLaMA、PandaGPT等,以及支持声音类的SpeechGPT等等。但目前的多模态大语言模型,距离真正人类级别的AGI,总感觉少了点「内味」。没错,人类的认知和沟通必须无缝地在任何信息模态之间进行转换。作为人

VLDB 2023奖项公布,清华、第四范式、NUS联合论文获最佳工业界论文奖

数据库领域的国际顶级学术会议VLDB2023在加拿大温哥华落幕。VLDB会议全称InternationalConferenceonVeryLargeDataBases,是数据库领域历史悠久的三大顶级会议(SIGMOD、VLDB、ICDE)之一,每届会议集中展示了当前数据库研究的前沿方向、工业界的最新技术和各国的研发水平,吸引了全球顶级研究机构投稿。该会议对系统创新性、完整性、实验设计等方面都要求极高,VLDB的论文接受率总体较低(约18%),必须是贡献很大的论文才有机会被录用。今年的竞争更为激烈。据官方显示,今年VLDB共有9篇论文脱颖而出,获得了最佳论文奖项,其中不乏斯坦福、CMU、微软研究

无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成

随着扩散模型的发展,基于输入文本生成高质量的图片和视频已经成为现实,但是仅使用文本生成视觉内容的可控性有限。为了克服这个问题,研究人员们开始探索额外的控制信号和对现有内容进行编辑的方法。这两个方向在一定程度上实现了生成过程的可控性,但仍然需要依赖文本来描述目标生成内容。在实际应用中,我们面临着一个新的需求:如果用户想要生成的内容无法用语言描述呢?例如,用户想生成某一个普通人的视频,但仅在输入文本中使用普通人的名字是无意义的,因为语言模型无法识别不在训练语料中的个体姓名。针对这个问题,一种可行的解决方案是基于给定个体训练个性化的模型。例如,DreamBooth和Dreamix通过多张图片理解个体

训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型

今年是AI技术爆发式发展的一年,以ChatGPT为代表的大语言模型(LLM)大火。语言模型除了在自然语言领域显示出巨大的潜力之外,也开始逐渐辐射到其他模态,比如文生图模型StableDiffusion的背后也需要语言模型。从头开始训练一个视觉-语言模型(VL-LLM)往往需要消耗大量的资源,所以现有的解决方案都是把语言模型和视觉提示生成模型(VisualPromptGenerator,VPG)连接起来,但即便如此,继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。最近,来自新加坡国立大学和清华大学的研究人员提出了一个解决方案VPGTrans,将现有的VPG迁移到现有的VL-LLM模型中