斯坦_草庐IT

扩散模型更懂复杂提示词！Pika北大斯坦福开源新框架，利用LLM提升理解力

Pika北大斯坦福联手，开源最新文本-图像生成/编辑框架！无需额外训练，即可让扩散模型拥有更强提示词理解能力。面对超长、超复杂提示词，准确性更高、细节把控更强，而且生成图片更加自然。效果超越最强图像生成模型Dall·E3和SDXL。比如要求图片左右冰火两重天，左边有冰山、右边有火山。SDXL完全没有符合提示词要求，Dall·E3没有生成出来火山这一细节。还能通过提示词对生成图像二次编辑。这就是文本-图像生成/编辑框架RPG（Recaption,PlanandGenerate），已经在网上引起热议。它由北大、斯坦福、Pika联合开发。作者包括北大计算机学院崔斌教授、Pika联合创始人兼CTOCh

大模型+强化学习+物理仿真，3D动作生成PHASIG算法打造3D版斯坦福小镇

2023年4月，谷歌和斯坦福大学创造的虚拟小镇smallville。在这个开放世界中，25个由GPT驱动的智能体拥有独特人设和记忆，生活在小镇中，产生了错综复杂的行动，甚至自发组织了一场情人节派对，从邀请、装饰场地到成功举办，像是真实世界的“镜像”仿真。可惜的是，小镇中多智能体的交互过程，仅通过2D画面和对话气泡展示，无法呈现“西部世界”中3D真人用生动神态、身体动作和反应创造的身临其境感。如何让虚拟小镇“生动”起来？演示视频：https://www.bilibili.com/video/BV1bb4y1V72a/#reply622506930元象XVERSE专门研发3D动作生成PHASIG算

斯坦福机器人炒虾爆火网络，谷歌DeepMind发布机器人最新进展，2024智能机器人元年到来？

2024年，智能机器人开局就给予了我们无限想象。就在昨日斯坦福华人团队的“炒虾”机器人爆火网络：，时长00:49大家纷纷惊呼未来科幻电影走进生活，毫不夸张的讲，当这个成本22万的开源项目普及再经过一段时间的成本降价后，2024可能当真是未来的机器人元年！昨日这个全新移动机器人MobileALOHA给大家带来了无限惊喜，今天该项目的负责人，斯坦福的华人博士ZipengFu更新了一波后续视频。他将MobileALOHA带回了家，尝试了诸如洗衣服、扔垃圾、浇花等等一系列“家务活”。让我们先睹为快MobileALOHA的表现：，时长02:37谷歌DeepMind发布智能机器人最新进展还是在昨日，谷歌D

斯坦福Mobile ALOHA背后的关键技术：动作分块ACT算法的原理解析

前言23年已过35今24年则将36，到40岁之前还有4年半，这4年半我想冲一把大模型机器人(兼具商业价值、社会价值、科技价值)，更大的如造车我也干不了，但通过过去一年的研究探索与应用开发(比如我带队开发完成的AIGC模特生成、论文审稿GPT、企业知识库问答等)，机器人是在可能范围之内我能做的最大的项目，很难，4年半下来也不一定能达到预期，但全力希望通过Q1之内的技术准备、复现Mobliealoha、建机器人开发团队之后，Q2之内可以拿到一笔融资全力开干(至于教育培训会永远一直做，毕竟能为项目推荐源源不断的人才)根据上一篇文章《大模型机器人发展史：从VoxPoser、RT2到斯坦福MobileA

大模型机器人发展史：从VoxPoser、RT2到斯坦福Mobile ALOHA、Google机器人

前言23年7月，我在朋友圈评估Google的RT2说道：“大模型正在革新一切领域啊，超帅，通过大模型不仅能理解“人话”，还能对“人话”进行推理，并转变为机器人能理解的指令，从而分阶段完成任务。回头仔细看下论文”当时便对大模型机器人印象深刻，一直想仔细研究下来着，但因为后来一直和团队忙于论文审稿GPT、企业知识库问答等项目，所以一直没抽出时间去深入研究没成想，前几天，斯坦福的炒菜机器人火爆全网，再次让包括我在内的所有人目瞪口呆，再次在朋友圈评论道：多模态+大模型+AIagent可以全方位赋能机器人一年前我决心彻底写清楚ChatGPT原理一年前，因为对ChatGPT背后技术原理巨大的「好奇心」，加

在斯坦福尼亚的中国柠檬酸

是斯坦福大学的中文包裹能够检测到成都（成语）和俗语（例如（例如（例如）看答案我也掩盖我！真的做了！以下由Stanford-NLP管道（带有中国模型）生成：令牌，SSPLIT，POS，LEMMA，NER[[{"category2":null,"offset-begin":"0","ner2":"O","lemma2":"冰冻三尺","word2":null,"index":"1","index2":"1","lemma":"冰冻三尺","offset-begin2":"null","tag2":"","originalText":"","offset-end":"4","answer":null

大翻车！斯坦福超火机器人自曝内幕，研究者救场还受伤了，网友：放心了

爆火的斯坦福全能家务机器人MobileALOHA，大！翻！！车！！！你以为它擦个红酒轻而易举，但实际上却是这样的：全给你弄撒喽，顺带碎个杯子……你以为它能化身大厨娴熟烹炒，结果给你上演一个炒锅底：MobileALOHA的翻车大合集还不止这些。例如刚才炒完虾的锅，哎呦喂，一不小心没拿住：即使小哥一个箭步冲上去也没阻止“悲剧”的发生（好像还烫到手了）。这画面，真是像极了庄嫂摔碗……昨天还在“神坛”上的MobileALOHA，一夜之间便被曝出了这么多“笨手笨脚”的样子，也是引来不少网友的围观。然而，这次即使面对翻车铁证，网友们的画风却是一反常态：它并不完美，不过很可爱。总会有犯错的余地。最重要的是：

斯坦福炒虾机器人爆火全网！华人团队成本22万元，能做满汉全席还会洗碗

今天，会做一大桌子菜的斯坦福机器人MobileALOHA刷屏全网。滑蛋虾仁、干贝烧鸡、蚝油生菜，色香味俱全，看着很诱人。就拿滑蛋虾仁这道菜来说，MobileALOHA在烧水的过程中先打上3颗鸡蛋，然后把虾仁放到水中焯熟，平底锅倒入鸡蛋液再加入虾仁，搅拌几下，一道菜完成了。再看干贝烧鸡的制作过程。首先，将去骨鸡腿肉煎至两面金黄，再加入干贝等调料之后，闷个20分钟即可。最后摆盘时，再撒上一小撮葱花，完美。至于蚝油生菜，机器人「大厨」的基操也是非常娴熟。甚至，还能切蒜末。网友看后纷纷表示，我们简直生活在未来！用不了多久快餐店做汉堡的工作要全面被机器人取代！就连Pytorch之父称赞道，很酷的新家机器

维基百科+大模型打败幻觉！斯坦福WikiChat性能碾压GPT-4，准确率高达97.3%

大语言模型的幻觉问题被解决了！近日，来自斯坦福的研究人员发布了WikiChat——被称为首个几乎不产生幻觉的聊天机器人！论文发表在EMNLP2023，并且在Github上开源了代码：论文地址：https://aclanthology.org/2023.findings-emnlp.157.pdf项目代码：https://github.com/stanford-oval/WikiChat作者表示自己的最佳模型在新的基准测试中获得了97.3%的事实准确性，而相比之下，GPT-4的得分仅为66.1%。在「recent」和「tail」两个知识子集中，这个差距甚至更大。另外，作者还发现了检索增强生成（R

假扮卧底，骗AI泄露代码拯救人类？斯坦福小哥用GPT-4开发游戏惊呆网友

由AI开发的AI游戏来了！最近，这款由ChatGPT、DALL·E3和Midjourney等AI联合生成的游戏，震惊了网友。游戏名为「ThusSpokeZaranova」，创意借鉴了尼采的《查拉图斯特拉如是说》（ThusSpokeZarathustra)。游戏的背景，设定在一个叫TheNexus的虚拟空间，在这里，人类与AI爆发了冲突。人类需要假扮AI，潜入这个由AI控制的空间，盗取名为ZetaMaster的核心代码，来拯救人类。在这个游戏中，角色设定和对话完全是由ChatGPT生成的，而视觉音效由DALL·E3、Midjourney和StableAudio完成。网上的一次讨论，诞生了一款游戏