李飞飞_草庐IT

开源版OpenAI机器人2.5万打造！斯坦福李飞飞团队祭出「灵巧手」，泡茶剪纸炫技

OpenAI大模型加持的机器人Figure01，昨天火爆了全网。而今天，真正「开源版」的擎天柱/Figure01诞生了，而且背后团队还将成本打了下来。成本只要3605.59美元！它拥有一双灵巧手，就比如泡茶，先是拧开瓶盖，再拿茶镊将茶叶挑进杯中，并放回原位。快看，它能一手拿着剪刀，一手拿着便利签纸，执行人类剪纸这一动作。（不过剪断的这个过程好难）它还可以将胶带纸，放到收纳的纸盒中，一手拿胶带摆放，一手将盒子推近。而且不管这个物体是什么，它都能照样完成。与前段时间爆火的炒虾机器人不同的是，「灵巧手」并非通过远程操控完成任务。是因为，凭借一副特制的手套，它可以通过各种传感器捕捉到手部精确的运动数据

李飞飞团队新作：AI透视眼，穿越障碍看清你，渲染遮挡人体有新突破了

AR/VR、电影和医疗等领域都在广泛地应用视频渲染人类形象。由于单目摄像头的视频获取较为容易，因此从单目摄像头中渲染人体一直是研究的主要方式。Vid2Avatar、MonoHuman 和NeuMan 等方法都取得了令人瞩目的成绩。尽管只有一个摄像头视角，这些方法仍能从新的视角准确地渲染人体。不过，大多数现有的方法在渲染人体时都是针对较为理想的实验场景进行设计的。在这些场景中，障碍物几乎不存在，人的各个身体部分在每一帧中也都能全部展示出来。可这与现实场景大为不同。现实场景中常有多个障碍物，人体也会在移动过程中被障碍物遮挡。大多数的神经渲染方法在处理现实世界的场景时都会因为遮挡而困难重重，其中一大

[论文精读] 使用扩散模型生成真实感视频 - 【李飞飞团队新作，文生视频新基准】

论文导读:论文背景:2023年12月11日，AI科学家李飞飞团队与谷歌合作，推出了视频生成模型W.A.L.T（WindowAttentionLatentTransformer）——一个在共享潜在空间中训练图像和视频生成的、基于Transformer架构的扩散模型。李飞飞是华裔女科学家、世界顶尖的AI专家，现为美国国家工程院院士、美国国家医学院院士、美国艺术与科学院院士，斯坦福大学终身教授、斯坦福大学人工智能实验室主任，曾任谷歌副总裁和谷歌云首席科学家。面向问题:视频生成任务中目前主流的方法依然倾向于使用卷积或U-Net作为骨干网络,而没有充分利用Transformer模型的优势。视频的高维度也

李飞飞吴恩达等2024年AI十大预测！GPU短缺，AI智能体一年内大爆发

2023，可以说是人工智能的春天。在过去的一年里，ChatGPT成为家喻户晓的名字，这一年中，AI和AI公司的各种变革，让我们震惊，也成为我们茶余饭后的瓜果。这一年中，生成式AI取得了重大进展，使得人工智能初创公司吸引了大量资金。人工智能领域的大佬们开始讨论AGI的可能性，政策制定者开始认真对待人工智能监管。但在人工智能和科技行业们的领袖眼中，AI浪潮可能才刚刚起步。之后的每一年，可能都是浪潮最汹涌澎湃的一年。比尔盖茨，李飞飞，吴恩达等人，都在最近对未来AI的发展趋势谈了自己的看法。他们都不约而同地谈到了期待更大的多模态模型、更令人兴奋的新功能，以及围绕我们如何使用和监管这项技术的更多对话。比

李飞飞谷歌破局之作！用Transformer生成逼真视频，下一个Pika来了？

视频大数据时代，真的来了！刚刚，李飞飞的斯坦福团队同谷歌合作，推出了用于生成逼真视频的扩散模型W.A.L.T。这是一个在共享潜在空间中训练图像和视频生成的，基于Transformer的扩散模型。论文：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf英伟达高级科学家JimFan转发评论道：2022年是影像之年，2023是声波之年，而2024，是视频之年！首先，研究人员使用因果编码器在共享潜在空间中压缩图像和视频。其次，为了提高记忆和训练效率，研究人员使用基于窗口注意的变压器架构来进行潜在空间中的联合空间和时间生成建模。研究人员的模

李飞飞团队新作：脑控机器人做家务，让脑机接口具备少样本学习能力

未来也许只需动动念头，就能让机器人帮你做好家务。斯坦福大学的吴佳俊和李飞飞团队近日提出的NOIR系统能让用户通过非侵入式脑电图装置控制机器人完成日常任务。NOIR能将你的脑电图信号解码为机器人技能库。它现在已能完成例如烹饪寿喜烧、熨衣服、磨奶酪、玩井字游戏，甚至抚摸机器狗等任务。这个模块化的系统具备强大的学习能力，可以应对日常生活中复杂多变的任务。大脑与机器人接口（BRI）堪称是人类艺术、科学和工程的集大成之作。我们已经在不胜枚举的科幻作品和创意艺术中见到它，但真正实现BRI却非易事，需要突破性的科学研究，创造出能与人类完美协同运作的机器人系统。对于这样的系统，一大关键组件是机器与人类通信的能

AI「脑补」画面太强了！李飞飞团队新作ZeroNVS，单个视图360度全场景生成

近来，利用3D感知扩散模型训练模型，然后对单个物体进行SDS蒸馏的研究数不胜数。但是，能够真正做到「场景级」的画面生成，从未实现。现如今，斯坦福李飞飞和谷歌团队打破了这个记录！比如，输入一张从某个角度拍摄的客厅图片，整个客厅的样貌就出来了。再来一张角度很偏的屋子拐角图，也能生成一个意想不到的空间。还有各种物体室内、户外的全场景图。看到这儿，不得不不让人惊呼AI「脑补」简直强的一批！那么，这究竟是如何实现的呢？3D感知扩散模型——ZeroNVS最新论文中，斯坦福和谷歌研究人员引入了一种3D感知扩散模型——ZeroNVS。论文地址：https://arxiv.org/pdf/2310.17994.

AI智能超越人类终解开！李飞飞高徒新作破圈，5万个合成数据碾压人类示例，备咖啡动作超丝滑

AI巨佬GeoffreyHinton称，「科技公司们正在未来18个月内，要使用比现在GPT-4多100倍的算力训练新模型」。更大参数的模型，对算力需求巨大的同时，对数据也提出了更高的要求。但是，更多的高质量数据该从何来？英伟达高级科学家JimFan表示，「合成数据，将为我们饥渴的模型提供万亿个token」。作为例证，英伟达与UT的研究人员在最新研究中，提出了一个MimicGen系统，能够大量生成机器人训练数据。论文地址：https://arxiv.org/pdf/2310.17596.pdf具体过程是，通过在模拟环境中，使用数字孪生技术复制真实世界中，人类的操作数据。仅用了不到200个人类演示

【IT资讯 7】《时代》周刊发布首届全球百大AI人物：李彦宏、吴恩达、李飞飞、曾毅等人入选

2023年9月9日星期六癸卯年七月廿五第000007号本文收录于IT资讯速递专栏,本专栏主要用于发布各种IT资讯，为大家可以省时省力的就能阅读和了解到行业的一些新资讯IT资讯领导者（Leaders）李彦宏（百度CEO、董事长兼联合创始人）吴恩达（深度学习创始人）SamAltman（CEO,OpenAI）马斯克（xAI创始人）思想家（Thinkers）李飞飞（斯坦福大学教授）曾毅（中国科学院教授）IlyaSutskever（OpenAI联合创始人兼首席科学家）Time100AI的名单北京时间9月7日晚，《时代》周刊发布了首届全球百大AI人物，榜单分为领导者（Leaders）、创新者（Innova

时代周刊100个最具影响力AI人物：李飞飞、黄仁勋、李彦宏、曾毅等人入选

刚刚，《时代》周刊发布了2023年度AI领域最具影响力的100人名单。在这份名单中，我们看到了很多熟悉的学者和企业家。「领导者」部分包括OpenAI联合创始人SamAltman，百度CEO李彦宏，谷歌DeepMindCEO兼联合创始人DemisHassabis，还有马斯克、李开复、吴恩达、黄仁勋等。在「思想者」部分，中国科学院教授曾毅、斯坦福大学教授李飞飞、OpenAI联合创始人兼首席科学家IlyaSutskever，以及深度学习三巨头GeoffreyHinton、YannLeCun、YoshuaBengio均入选。下面我们整理了部分入选人员名单，完整名单请查看：https://time.co