「如今,LLM(大语言模型)并不是单点突破的——而是需要多个重要组件有效协同工作的系统。Speculativedecoding是帮助我们从系统角度思考的一个很好的例子。」爱丁堡大学博士生符尧表示道。符尧上述观点评论的是特斯拉前AI总监、年初重回OpenAI的AndrejKarpathy刚刚发布的一条推特。人形机器人公司1XTechnologies的AI副总裁EricJang评价道:「Karpathy很好的解释了LLM的speculativeexecution。其他自回归模型可能会以类似的方式加速。连续(扩散)模型可能从K步中获益较少(可能在第1步后偏离猜测),但可以将其应用于VQ-latent
最近,AI圈依然是大事频发,几天一个爆炸性新闻。Meta联手微软高调开源了Llama2,它在2万亿个token上训练,秒杀许多开源语言模型,并且还能免费商用。OpenAI科学家Karpathy最近搞的明星项目「BabyLlama」,已经可以用C语言跑Llama27B了。而就在几天前,StabilityAI正式发布了下一代文生图模型——StableDiffusionXL1.0。这次的1.0版本是StabilityAI的旗舰版生图模型,也是最先进的开源生图模型。图片在目前的开放式图像模型中,SDXL1.0是参数数量最多的。官方表示,这次采用的是全新的架构,基础模型的参数规模达到35亿,同时还有一个
你有没有想过仅用C语言去推理一个Llama2的baby模型?没有?现在就能做到了!就在刚刚过去的这个周末,OpenAI科学家AndrejKarpathy做了一个非常有趣的项目——llama2.c。项目灵感正是来自于之前的明星项目——llama.cpp首先,在PyTorch中训练一个较小的Llama2模型。然后,用500行代码在纯C环境下进行推理,并且无需任何依赖项。最后得到的预训练模型(基于TinyStories),可以在MacBookAirM1CPU上用fp32以每秒18个token的速度生成故事样本。图片llama2.c一经发布,就在GitHub上速揽1.6k星,并且还在快速攀升中。图片项
这一周来,Meta开源的Llama2火遍了整个AI社区。这不,连特斯拉前AI总监、年初重回OpenAI的AndrejKarpathy也坐不住了。他利用周末时间,做了一个关于Llama2的有趣项目——「llama2.c」。图片GitHub地址:https://github.com/karpathy/llama2.c具体是什么呢?他表示「llama2.c」可以让你在PyTorch中训练一个babyLlama2模型,然后使用近500行纯C、无任何依赖性的文件进行推理。并且,这个预训练模型能够在M1芯片的MacBookAir上以fp32的浮点精度、18tok/s的速度对故事进行采样。Karpathy介
近日,OpenAI联合创始人,曾经TeslaAI总监,现在又重新返回OpenAI的AndrejKarpathy在一个开发者活动上,分享了自己对于AI智能体的看法。7年前,研究AI智能体的时机还不成熟他先聊到了自己早期在OpenAI工作时(2016年左右),当时的业界潮流就是研究如何用强化学习的方法来改进AI智能体。很多项目都在基于类似雅达利游戏来制作AI玩家。图片当时他本人想做的是一个适用范围更广泛的产品。但是因为当时的技术所限,做出来的效果不好,于是他和OpenAI就改变了方向,开始做大语言模型了。当然,这期间我被自动驾驶分了心。但是5年之后的现在,AI智能体重新成为了一个非常有前途的方向。
一年一度的微软「Build开发者大会」前两天刚刚开幕。微软CEOSatyaNadella在发布会上介绍了这次主要的更新,以ChatGPT为代表的生成式AI成为本次大会的重中之重,其中包括自家的重头戏——WindowsCopilot。演讲视频链接:https://youtu.be/6PRiAexITSs前段时间刚宣布回归OpenAI的业界大牛、李飞飞高徒、特斯拉前AI总监AndrejKarpathy,也在大会发表了题为「GPT现状」(StateofGPT)的主题演讲。演讲内容主要包括了解ChatGPT等GPT助手的训练途径,他将其分为标记化(Tokenization)、预训练(Pretraini
只要你懂Python,大概记得高中学过的求导知识,看完这个视频你还不理解反向传播和神经网络核心要点的话,那我就吃鞋:DAndrejKarpathy,前特斯拉AI高级总监、曾设计并担任斯坦福深度学习课程CS231n讲师、OpenAI创始成员和研究科学家。在7月离职特斯拉后,Andrej在家录制了一个详解反向传播的课程,自信表示“这是8年来领域内对神经网络和反向传播的最佳讲解”,并在推特打赌“看不懂就吃鞋”。虽然很想看Andrej直播吃鞋,但实话实说,作为小白的我,好像真的看懂了。课程视频【中英字幕】AndrejKarpathy|详解神经网络和反向传播(基于micrograd)字幕由矩池云翻译制作
只要你懂Python,大概记得高中学过的求导知识,看完这个视频你还不理解反向传播和神经网络核心要点的话,那我就吃鞋:DAndrejKarpathy,前特斯拉AI高级总监、曾设计并担任斯坦福深度学习课程CS231n讲师、OpenAI创始成员和研究科学家。在7月离职特斯拉后,Andrej在家录制了一个详解反向传播的课程,自信表示“这是8年来领域内对神经网络和反向传播的最佳讲解”,并在推特打赌“看不懂就吃鞋”。虽然很想看Andrej直播吃鞋,但实话实说,作为小白的我,好像真的看懂了。课程视频【中英字幕】AndrejKarpathy|详解神经网络和反向传播(基于micrograd)字幕由矩池云翻译制作