草庐IT

伯恩斯坦

全部标签

LLM生成3D场景,无限延伸!斯坦福华人提出3D动画生成框架,一句话一幅图创造无限3D世界

斯坦福华人退学博士开发的Pika,让AI技术和艺术迸发出了绚丽的火花。最近,又有斯坦福的华人研究人员提出的新的框架——WonderJourney,可以用一句话或者一张图,自动生成一系列3D场景的连续画面,效果炫酷!图片用一张爱丽丝奇境漫游的图片,就能生成一段真的爱丽丝漫游的梦境经历。或者,用一首陆游的《游山西村》,可以生成一段水墨风格的诗词梦境:莫笑农家腊酒浑,丰年留客足鸡豚。山重水复疑无路,柳暗花明又一村。箫鼓追随春社近,衣冠简朴古风存。从今若许闲乘月,拄仗无时夜扣门图片项目网址:https://kovenyu.com/WonderJourney/图片论文地址:https://arxiv.o

MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力

对于人类来说,句子是分层的。句子的层次结构对于表达和理解都相当重要。但是在自然语言处理中,之前的研究认为,在泛化到新的结构输入时,以Transformer为代表的神经序列模型似乎很难有效地捕捉到这种句子的层级结构。但是斯坦福和MIT的研究人员在最近的研究中发现。如果对Transformer类的模型进行长时间的训练之后,它能获得这种结构性的泛化能力。研究人员将这种现象称为:结构顿悟(StructuralGrokking,SG)Grokking这个词是一个作家在书中造出来的词,中文大概翻译成「顿悟」。微博网友木遥老师把这个词解释为:一个高度复杂的神经网络在漫长的训练期内一直只能记住训练样本的信息,

AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型

AI画的玛丽莲·梦露,倒转180°后,竟然变成了爱因斯坦?!这是最近在社交媒体上爆火的扩散模型视错觉画,随便给AI两组不同的提示词,它都能给你画出来!哪怕是截然不同的对象也可以,例如一位男子,经过反色处理,就神奇地转变成一名女子:就连单词也能被翻转出新效果,happy和holiday只在一旋转间:原来,这是来自密歇根大学的一项“视觉字谜”新研究,论文一发出就在HackerNews上爆火,热度飙至近800。英伟达高级AI科学家JimFan赞叹称:这是我近期见到最酷的扩散模型!还有网友感叹称:这让我想到了从事分形压缩工作的那段经历。我一直认为它是纯粹的艺术。要知道,创作一幅经过旋转、反色或变形后呈

【斯坦福计网CS144】Lab5终结笔记

​🌈个人主页:SarapinesProgrammer🔥 系列专栏:《斯坦福大学CS144|奇遇记》🔖翰墨致赠:翠柏摇落寒江曲,风华如梦往事长。剑啸苍穹激云涌,豪情自在星空翔。目录结构⛳️1.斯坦福大学计网实验室1.1斯坦福大学之CS1441.2CS144实验室之Lab5⛳️2.Lab02.1实验目的2.2实验说明2.3实验内容2.4实验体会📝总结🔥后续实验:【斯坦福计网CS144】Lab6终结笔记🔥官方文档:lab0-lab7官网解析pdf.zip🔥源码资源:斯坦福CS144-lab5解决源码(亲测有效!!!)⛳️1.斯坦福大学计网实验室【中文精翻】【斯坦福大学】CS144计算机网络介绍!!!

【斯坦福计网CS144】Lab0终结笔记

​🌈个人主页:SarapinesProgrammer🔥 系列专栏:《斯坦福大学CS144|奇遇记》🔖作者寄语:翠柏摇落寒江曲,风华如梦往事长。剑啸苍穹激云涌,豪情自在星空翔。目录结构⛳️1.斯坦福大学计网实验室1.1斯坦福大学之CS1441.2CS144实验室之Lab0⛳️2.Lab02.1实验目的2.2实验说明2.3实验内容2.4实验体会📝总结🔥后续实验:【斯坦福计网CS144】Lab1终结笔记🔥官方文档:lab0-lab7官网解析pdf.zip🔥源码资源:斯坦福CS144-lab0解决源码(亲测有效!!!)⛳️1.斯坦福大学计网实验室【中文精翻】【斯坦福大学】CS144计算机网络介绍!!!

【斯坦福计网CS144】Lab4终结笔记

​🌈个人主页:SarapinesProgrammer🔥 系列专栏:《斯坦福大学CS144|奇遇记》🔖作者寄语:翠柏摇落寒江曲,风华如梦往事长。剑啸苍穹激云涌,豪情自在星空翔。目录结构⛳️1.斯坦福大学计网实验室1.1斯坦福大学之CS1441.2CS144实验室之Lab4⛳️2.Lab42.1实验目的2.2实验说明2.3实验内容2.4实验体会📝总结🔥 后续实验:【斯坦福计网CS144】Lab5终结笔记🔥 官方文档:lab0-lab7官网解析pdf.zip🔥 源码资源:斯坦福CS144-lab4解决源码(亲测有效!!!)⛳️1.斯坦福大学计网实验室【中文精翻】【斯坦福大学】CS144计算机网络介绍

【AIGC】斯坦福小镇升级版——AI-Town源码解读

写在前面的话:接上一篇斯坦福小镇升级版——AI-Town搭建指南,本本篇将解读AI-Town使用的技术栈、代码架构、与LLM的交互,以及与斯坦福AI小镇的对比结果(如想直接看结论可跳到文章最后)整体架构技术栈AI-Town使用TypeScript/JavaScript完成前后端全栈开发,使用的平台和工具有:游戏引擎和数据库(Gameengine&Database):Convex向量数据库(VectorDB):Pinecone登录认证(Auth):Clerk文本生成模型(Textmodel):OpenAI部署(Deployment):Fly像素图生成(PixelArtGeneration):Re

斯坦福美女博士创业项目爆火!AI视频生成出道即顶流

斯坦福华人博士休学搞创业,直接火爆AI圈!新产品瞄准AI视频生成,刚出道就成行业顶流,引来一众大佬围观评价。OpenAI大牛AndrejKarpathy转发,并激情附上长文一段:每个人都能成为多模态梦境的导演,就像《盗梦空间》里的筑梦师一样。就连StabilityAI创始人也来点赞:这个新产品名为Pika 1.0,背后公司Pika于今年4月成立。要知道,这一行的产品已有不少,如成立5年的Runway等公司。在AI视频生成“乱花迷人眼”的当下,这个新产品究竟是如何做到迅速破圈,吸引大量关注度的?从放出的Demo效果来看,Pika1.0不仅能根据文字图片,流畅地生成一段视频,动静转换就在一瞬间:而

UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!LeCun和Jim Fan震惊了

GPT-4V诞生后,惊艳的多模态能力让网友惊呼连连,连OpenAI总裁GregBrockman都不断在X上安利。不过,最近大家发现,只要打乱布局,GPT-4V就会被曾经解决的著名计算机视觉难题——「吉娃娃还是松饼」,再次难倒……UCSC教授XinEricWang表示,如果将经典的4x4网格构图重新布局,GPT-4V就会给出错误的描述——「共有8张特写图片,分两排排列,每排4张图」。图片如果问它第一行第三个图是什么,它会说是松饼……吉娃娃:你礼貌吗?此外,UCSB教授WilliamWang也发现,当一堆图片糊到脸上时,GPT-4V就懵了,无法分清到底哪张图是「贵宾犬」,哪张图是「炸鸡腿」。图片学