Pika北大斯坦福联手,开源最新文本-图像生成/编辑框架!无需额外训练,即可让扩散模型拥有更强提示词理解能力。面对超长、超复杂提示词,准确性更高、细节把控更强,而且生成图片更加自然。效果超越最强图像生成模型Dall·E3和SDXL。比如要求图片左右冰火两重天,左边有冰山、右边有火山。SDXL完全没有符合提示词要求,Dall·E3没有生成出来火山这一细节。还能通过提示词对生成图像二次编辑。这就是文本-图像生成/编辑框架RPG(Recaption,PlanandGenerate),已经在网上引起热议。它由北大、斯坦福、Pika联合开发。作者包括北大计算机学院崔斌教授、Pika联合创始人兼CTOCh
2023年4月,谷歌和斯坦福大学创造的虚拟小镇smallville。在这个开放世界中,25个由GPT驱动的智能体拥有独特人设和记忆,生活在小镇中,产生了错综复杂的行动,甚至自发组织了一场情人节派对,从邀请、装饰场地到成功举办,像是真实世界的“镜像”仿真。可惜的是,小镇中多智能体的交互过程,仅通过2D画面和对话气泡展示,无法呈现“西部世界”中3D真人用生动神态、身体动作和反应创造的身临其境感。如何让虚拟小镇“生动”起来?演示视频:https://www.bilibili.com/video/BV1bb4y1V72a/#reply622506930元象XVERSE专门研发3D动作生成PHASIG算
2024年,智能机器人开局就给予了我们无限想象。就在昨日斯坦福华人团队的“炒虾”机器人爆火网络:,时长00:49大家纷纷惊呼未来科幻电影走进生活,毫不夸张的讲,当这个成本22万的开源项目普及再经过一段时间的成本降价后,2024可能当真是未来的机器人元年!昨日这个全新移动机器人MobileALOHA给大家带来了无限惊喜,今天该项目的负责人,斯坦福的华人博士ZipengFu更新了一波后续视频。他将MobileALOHA带回了家,尝试了诸如洗衣服、扔垃圾、浇花等等一系列“家务活”。让我们先睹为快MobileALOHA的表现:,时长02:37谷歌DeepMind发布智能机器人最新进展还是在昨日,谷歌D
前言23年已过35今24年则将36,到40岁之前还有4年半,这4年半我想冲一把大模型机器人(兼具商业价值、社会价值、科技价值),更大的如造车我也干不了,但通过过去一年的研究探索与应用开发(比如我带队开发完成的AIGC模特生成、论文审稿GPT、企业知识库问答等),机器人是在可能范围之内我能做的最大的项目,很难,4年半下来也不一定能达到预期,但全力希望通过Q1之内的技术准备、复现Mobliealoha、建机器人开发团队之后,Q2之内可以拿到一笔融资全力开干(至于教育培训会永远一直做,毕竟能为项目推荐源源不断的人才)根据上一篇文章《大模型机器人发展史:从VoxPoser、RT2到斯坦福MobileA
前言23年7月,我在朋友圈评估Google的RT2说道:“大模型正在革新一切领域啊,超帅,通过大模型不仅能理解“人话”,还能对“人话”进行推理,并转变为机器人能理解的指令,从而分阶段完成任务。回头仔细看下论文”当时便对大模型机器人印象深刻,一直想仔细研究下来着,但因为后来一直和团队忙于论文审稿GPT、企业知识库问答等项目,所以一直没抽出时间去深入研究没成想,前几天,斯坦福的炒菜机器人火爆全网,再次让包括我在内的所有人目瞪口呆,再次在朋友圈评论道:多模态+大模型+AIagent可以全方位赋能机器人一年前我决心彻底写清楚ChatGPT原理一年前,因为对ChatGPT背后技术原理巨大的「好奇心」,加
是斯坦福大学的中文包裹能够检测到成都(成语)和俗语(例如(例如(例如)看答案我也掩盖我!真的做了!以下由Stanford-NLP管道(带有中国模型)生成:令牌,SSPLIT,POS,LEMMA,NER[[{"category2":null,"offset-begin":"0","ner2":"O","lemma2":"冰冻三尺","word2":null,"index":"1","index2":"1","lemma":"冰冻三尺","offset-begin2":"null","tag2":"","originalText":"","offset-end":"4","answer":null
爆火的斯坦福全能家务机器人MobileALOHA,大!翻!!车!!!你以为它擦个红酒轻而易举,但实际上却是这样的:全给你弄撒喽,顺带碎个杯子……你以为它能化身大厨娴熟烹炒,结果给你上演一个炒锅底:MobileALOHA的翻车大合集还不止这些。例如刚才炒完虾的锅,哎呦喂,一不小心没拿住:即使小哥一个箭步冲上去也没阻止“悲剧”的发生(好像还烫到手了)。这画面,真是像极了庄嫂摔碗……昨天还在“神坛”上的MobileALOHA,一夜之间便被曝出了这么多“笨手笨脚”的样子,也是引来不少网友的围观。然而,这次即使面对翻车铁证,网友们的画风却是一反常态:它并不完美,不过很可爱。总会有犯错的余地。最重要的是:
今天,会做一大桌子菜的斯坦福机器人MobileALOHA刷屏全网。滑蛋虾仁、干贝烧鸡、蚝油生菜,色香味俱全,看着很诱人。就拿滑蛋虾仁这道菜来说,MobileALOHA在烧水的过程中先打上3颗鸡蛋,然后把虾仁放到水中焯熟,平底锅倒入鸡蛋液再加入虾仁,搅拌几下,一道菜完成了。再看干贝烧鸡的制作过程。首先,将去骨鸡腿肉煎至两面金黄,再加入干贝等调料之后,闷个20分钟即可。最后摆盘时,再撒上一小撮葱花,完美。至于蚝油生菜,机器人「大厨」的基操也是非常娴熟。甚至,还能切蒜末。网友看后纷纷表示,我们简直生活在未来!用不了多久快餐店做汉堡的工作要全面被机器人取代!就连Pytorch之父称赞道,很酷的新家机器
大语言模型的幻觉问题被解决了!近日,来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的聊天机器人!论文发表在EMNLP2023,并且在Github上开源了代码:论文地址:https://aclanthology.org/2023.findings-emnlp.157.pdf项目代码:https://github.com/stanford-oval/WikiChat作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性,而相比之下,GPT-4的得分仅为66.1%。在「recent」和「tail」两个知识子集中,这个差距甚至更大。另外,作者还发现了检索增强生成(R
由AI开发的AI游戏来了!最近,这款由ChatGPT、DALL·E3和Midjourney等AI联合生成的游戏,震惊了网友。游戏名为「ThusSpokeZaranova」,创意借鉴了尼采的《查拉图斯特拉如是说》(ThusSpokeZarathustra)。游戏的背景,设定在一个叫TheNexus的虚拟空间,在这里,人类与AI爆发了冲突。人类需要假扮AI,潜入这个由AI控制的空间,盗取名为ZetaMaster的核心代码,来拯救人类。在这个游戏中,角色设定和对话完全是由ChatGPT生成的,而视觉音效由DALL·E3、Midjourney和StableAudio完成。网上的一次讨论,诞生了一款游戏