Karpathy_草庐IT

Andrej Karpathy：大模型有内存限制，这个妙招挺好用

「如今，LLM（大语言模型）并不是单点突破的——而是需要多个重要组件有效协同工作的系统。Speculativedecoding是帮助我们从系统角度思考的一个很好的例子。」爱丁堡大学博士生符尧表示道。符尧上述观点评论的是特斯拉前AI总监、年初重回OpenAI的AndrejKarpathy刚刚发布的一条推特。人形机器人公司1XTechnologies的AI副总裁EricJang评价道：「Karpathy很好的解释了LLM的speculativeexecution。其他自回归模型可能会以类似的方式加速。连续（扩散）模型可能从K步中获益较少（可能在第1步后偏离猜测），但可以将其应用于VQ-latent

好用妙招模型 token Speculative 开发语言大语言模型

Karpathy看好的Agents学会自动退换货了！英伟达H100加持，给LLM插入最强外接大脑

最近，AI圈依然是大事频发，几天一个爆炸性新闻。Meta联手微软高调开源了Llama2，它在2万亿个token上训练，秒杀许多开源语言模型，并且还能免费商用。OpenAI科学家Karpathy最近搞的明星项目「BabyLlama」，已经可以用C语言跑Llama27B了。而就在几天前，StabilityAI正式发布了下一代文生图模型——StableDiffusionXL1.0。这次的1.0版本是StabilityAI的旗舰版生图模型，也是最先进的开源生图模型。图片在目前的开放式图像模型中，SDXL1.0是参数数量最多的。官方表示，这次采用的是全新的架构，基础模型的参数规模达到35亿，同时还有一个

英伟退换 span text-align style 商务办公 Agents 英伟达模型

OpenAI科学家Karpathy周末造出「婴儿Llama2」！GPT-4辅助写500行纯C代码，速揽1.6k星

你有没有想过仅用C语言去推理一个Llama2的baby模型？没有？现在就能做到了！就在刚刚过去的这个周末，OpenAI科学家AndrejKarpathy做了一个非常有趣的项目——llama2.c。项目灵感正是来自于之前的明星项目——llama.cpp首先，在PyTorch中训练一个较小的Llama2模型。然后，用500行代码在纯C环境下进行推理，并且无需任何依赖项。最后得到的预训练模型（基于TinyStories），可以在MacBookAirM1CPU上用fp32以每秒18个token的速度生成故事样本。图片llama2.c一经发布，就在GitHub上速揽1.6k星，并且还在快速攀升中。图片项

科学家 Karpathy span text-align style 开发前端 OpenAI GPT-4

OpenAI联创Karpathy爱上羊驼：纯C代码实现婴儿Llama2，MacBook可运行，已揽1.6k星

这一周来，Meta开源的Llama2火遍了整个AI社区。这不，连特斯拉前AI总监、年初重回OpenAI的AndrejKarpathy也坐不住了。他利用周末时间，做了一个关于Llama2的有趣项目——「llama2.c」。图片GitHub地址：https://github.com/karpathy/llama2.c具体是什么呢？他表示「llama2.c」可以让你在PyTorch中训练一个babyLlama2模型，然后使用近500行纯C、无任何依赖性的文件进行推理。并且，这个预训练模型能够在M1芯片的MacBookAir上以fp32的浮点精度、18tok/s的速度对故事进行采样。Karpathy介

联创 Karpathy span text-align style 人工智能新闻 Llama2 AI

前特斯拉总监、OpenAI大牛Karpathy：我被自动驾驶分了心，AI智能体才是未来！

近日，OpenAI联合创始人，曾经TeslaAI总监，现在又重新返回OpenAI的AndrejKarpathy在一个开发者活动上，分享了自己对于AI智能体的看法。7年前，研究AI智能体的时机还不成熟他先聊到了自己早期在OpenAI工作时（2016年左右），当时的业界潮流就是研究如何用强化学习的方法来改进AI智能体。很多项目都在基于类似雅达利游戏来制作AI玩家。图片当时他本人想做的是一个适用范围更广泛的产品。但是因为当时的技术所限，做出来的效果不好，于是他和OpenAI就改变了方向，开始做大语言模型了。当然，这期间我被自动驾驶分了心。但是5年之后的现在，AI智能体重新成为了一个非常有前途的方向。

特斯大牛 span text-align style 人工智能新闻 AI 自动驾驶

回归OpenAI后首次演讲！李飞飞高徒Andrej Karpathy：GPT将走向何方？

一年一度的微软「Build开发者大会」前两天刚刚开幕。微软CEOSatyaNadella在发布会上介绍了这次主要的更新，以ChatGPT为代表的生成式AI成为本次大会的重中之重，其中包括自家的重头戏——WindowsCopilot。演讲视频链接：https://youtu.be/6PRiAexITSs前段时间刚宣布回归OpenAI的业界大牛、李飞飞高徒、特斯拉前AI总监AndrejKarpathy，也在大会发表了题为「GPT现状」（StateofGPT）的主题演讲。演讲内容主要包括了解ChatGPT等GPT助手的训练途径，他将其分为标记化（Tokenization）、预训练（Pretraini

何方高徒 style text-align align 人工智能新闻 AI 李飞飞

Andrej Karpathy | 详解神经网络和反向传播（基于 micrograd）

只要你懂Python，大概记得高中学过的求导知识，看完这个视频你还不理解反向传播和神经网络核心要点的话，那我就吃鞋:DAndrejKarpathy，前特斯拉AI高级总监、曾设计并担任斯坦福深度学习课程CS231n讲师、OpenAI创始成员和研究科学家。在7月离职特斯拉后，Andrej在家录制了一个详解反向传播的课程，自信表示“这是8年来领域内对神经网络和反向传播的最佳讲解”，并在推特打赌“看不懂就吃鞋”。虽然很想看Andrej直播吃鞋，但实话实说，作为小白的我，好像真的看懂了。课程视频【中英字幕】AndrejKarpathy|详解神经网络和反向传播（基于micrograd）字幕由矩池云翻译制作

反向详解 Andrej 特斯人工智能

Andrej Karpathy | 详解神经网络和反向传播（基于 micrograd）

只要你懂Python，大概记得高中学过的求导知识，看完这个视频你还不理解反向传播和神经网络核心要点的话，那我就吃鞋:DAndrejKarpathy，前特斯拉AI高级总监、曾设计并担任斯坦福深度学习课程CS231n讲师、OpenAI创始成员和研究科学家。在7月离职特斯拉后，Andrej在家录制了一个详解反向传播的课程，自信表示“这是8年来领域内对神经网络和反向传播的最佳讲解”，并在推特打赌“看不懂就吃鞋”。虽然很想看Andrej直播吃鞋，但实话实说，作为小白的我，好像真的看懂了。课程视频【中英字幕】AndrejKarpathy|详解神经网络和反向传播（基于micrograd）字幕由矩池云翻译制作

反向详解 Andrej 特斯人工智能