斯坦_草庐IT

斯坦福大学开源Alpaca模型源码，性能与GPT-3.5相当比GPT4逊色，训练成本不到100美元（教程含源码）

GPT-3.5(text-davinci-003)、ChatGPT、Claude和BingChat等指令遵循模型现在被许多用户广泛使用，包括用于与工作相关的任务。然而，尽管它们越来越受欢迎，但这些模型仍然存在许多需要解决的缺陷。虚假信息、社会刻板印象和有毒语言是与这些模型相关的一些问题。为了解决这些紧迫的问题，学术界需要更积极地参与。不幸的是，由于在功能上接近闭源模型（如OpenAI的text-davinci-003）的模型的可用性有限，因此在学术界研究指令遵循模型一直具有挑战性。为了应对这些挑战，斯坦福大学的研究人员发布了他们关于一种名为Alpaca的指令跟随语言模型的发现。Alpaca从M

斯坦福大学斯坦研究人员 text-davinci 跟随 gpt-3 人工智能深度学习

斯坦福大学开源Alpaca模型源码，性能与GPT-3.5相当比GPT4逊色，训练成本不到100美元（教程含源码）

GPT-3.5(text-davinci-003)、ChatGPT、Claude和BingChat等指令遵循模型现在被许多用户广泛使用，包括用于与工作相关的任务。然而，尽管它们越来越受欢迎，但这些模型仍然存在许多需要解决的缺陷。虚假信息、社会刻板印象和有毒语言是与这些模型相关的一些问题。为了解决这些紧迫的问题，学术界需要更积极地参与。不幸的是，由于在功能上接近闭源模型（如OpenAI的text-davinci-003）的模型的可用性有限，因此在学术界研究指令遵循模型一直具有挑战性。为了应对这些挑战，斯坦福大学的研究人员发布了他们关于一种名为Alpaca的指令跟随语言模型的发现。Alpaca从M

斯坦福大学斯坦研究人员 text-davinci 跟随 gpt-3 人工智能深度学习

斯坦福博士一己之力让Attention提速9倍！FlashAttention燃爆显存，Transformer上下文长度史诗级提升

继超快且省内存的注意力算法FlashAttention爆火后，升级版的2代来了。FlashAttention-2是一种从头编写的算法，可以加快注意力并减少其内存占用，且没有任何近似值。比起第一代，FlashAttention-2速度提升了2倍。甚至，相较于PyTorch的标准注意力，其运行速度最高可达9倍。一年前，StanfordAILab博士TriDao发布了FlashAttention，让注意力快了2到4倍，如今，FlashAttention已经被许多企业和研究室采用，广泛应用于大多数LLM库。如今，随着长文档查询、编写故事等新用例的需要，大语言模型的上下文以前比过去变长了许多——GPT-

斯坦斯坦福 span text-align style 人工智能 Attention 模型图像

斯坦福博士独作！大模型训练速度再翻倍，还官宣加入明星创业公司当首席科学家

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。现有大语言模型的训练和推理速度，还能再快一点——快多少？2-4倍。各种大模型都在用的FlashAttention今天正式发布第2代并开源，所有Transformer架构的模型都可使用它来加速。图片一代方法去年6月发布，无需任何近似即可加速注意力并减少内存占用。现在，FlashAttention-2将它再度升级，使其核心注意力操作的速度再提高2倍，端到端训练Transformer时的速度再提高1.3倍，并可在英伟达A100上训练时实现72%的模型FLOP利用率（一般模型都在50%上下）。图片鉴于现在炼一个大语言模型的成本

斯坦斯坦福 js_darkmode span darkmode 人工智能新闻福坦斯

足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼

之前尝试了从0到1复现斯坦福羊驼（StanfordAlpaca7B），StanfordAlpaca是在LLaMA整个模型上微调，即对预训练模型中的所有参数都进行微调（fullfine-tuning）。但该方法对于硬件成本要求仍然偏高且训练低效。因此，Alpaca-Lora则是利用Lora技术，在冻结原模型LLaMA参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数。由于这些新增参数数量较少，这样不仅微调的成本显著下降（使用一块RTX4090显卡，只用5个小时就训练了一个与Alpaca水平相当的模型，将这类模型对算力的需求降到了消费级），还能获得和全模型微调（fullfin

斯坦二十分 61 xff 39 机器学习深度学习人工智能

足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼

之前尝试了从0到1复现斯坦福羊驼（StanfordAlpaca7B），StanfordAlpaca是在LLaMA整个模型上微调，即对预训练模型中的所有参数都进行微调（fullfine-tuning）。但该方法对于硬件成本要求仍然偏高且训练低效。因此，Alpaca-Lora则是利用Lora技术，在冻结原模型LLaMA参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数。由于这些新增参数数量较少，这样不仅微调的成本显著下降（使用一块RTX4090显卡，只用5个小时就训练了一个与Alpaca水平相当的模型，将这类模型对算力的需求降到了消费级），还能获得和全模型微调（fullfin

斯坦二十分 61 xff 39 机器学习深度学习人工智能

斯坦福AI智能体爆火研究！「好奇回放」算法让AI自我反思，主动探索新奇世界

一夜之间，AI智能体突然霸屏全网。业界大佬纷纷将关注重点从LLM转向了AI智能体，OpenAI的首席科学家Karpathy认为AI智能体是未来。就连英伟达老黄表示，下一波人工智能浪潮是具身人工智能，简之「AI智能体」。这不，近来斯坦福的最新研究，直接让AI智能体和一只小鼠来一场面对面的竞争，以确定谁能获胜。最新研究结果已发表在arXiv上，并被ICML2023接收。论文地址：https://arxiv.org/pdf/2306.15934.pdf智能体大战小鼠斯坦福研究人员IsaacKauvar设计了一个简单任务，「探索和适应周围环境」。Kauvar将一只小鼠放在狭小的空盒子里，类似地，将AI

斯坦斯坦福 span text-align style 人工智能 AI 智能

足够惊艳，使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调，效果比肩斯坦福羊驼

之前尝试了从0到1复现斯坦福羊驼（StanfordAlpaca7B），StanfordAlpaca是在LLaMA整个模型上微调，即对预训练模型中的所有参数都进行微调（fullfine-tuning）。但该方法对于硬件成本要求仍然偏高且训练低效。因此，Alpaca-Lora则是利用Lora技术，在冻结原模型LLaMA参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数。由于这些新增参数数量较少，这样不仅微调的成本显著下降（使用一块RTX4090显卡，只用5个小时就训练了一个与Alpaca水平相当的模型，将这类模型对算力的需求降到了消费级），还能获得和全模型微调（fullfin

斯坦斯坦福 61 xff strong python 人工智能机器学习

【LLM系列】00：斯坦福 Alpaca 模型介绍及其复现

简介西风吹老洞庭波，一夜湘君白发多。醉后不知天在水，满船清梦压星河。小伙伴好，我是微信公众号《小窗幽记机器学习》的小编：卖核弹的小女孩。更多、更新文章欢迎关注微信公众号：小窗幽记机器学习。后续会持续输出模型推理加速、工程部署、LLM、AI艺术等系列，敬请期待。有很多小伙伴看我到之前分享的AI艺术系列：05:生成线稿画04:文心一言vsChatGPT03:生成可控图鉴赏02：亚洲美女图鉴赏析01:生成宫崎骏风格图片00:梵高风格作品欣赏都以为卖核弹的小女孩已经弃坑NLP转战CV，其实并没有。俗话说“小孩子才做选择题”，所以今天我选择NLP。今天这篇小作文主要介绍一下斯坦福Alpaca模型及其复现

斯坦斯坦福 xff0c xff xff0 人工智能 LLM NLP AI

给大语言模型“开个眼”，看图说话性能超CLIP！斯坦福等新方法无需多模态预训练

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。不靠多模态数据，大语言模型也能看得懂图？！话不多说，直接看效果。就拿曾测试过BLIP-2的长城照片来说，它不仅可以识别出是长城，还能讲两句历史：再来一个奇形怪状的房子，它也能准确识别出不正常，并且知道该如何进出：故意把“Red”弄成紫色，“Green”涂成红色也干扰不了它：这就是最近研究人员提出的一种新模块化框架——LENS🔍（Language-EnhancedNeuralSystem）的识别效果。重要的是，不需要额外在多模态数据集上进行预训练，只用现成的大语言模型就能完成目标识别和视觉推理任务。既省钱又省力！研究人员

斯坦斯坦福 js_darkmode darkmode class 人工智能新闻数据模型