草庐IT

克斯坦

全部标签

GPT-5只会更笨!斯坦福莱斯研究警告,AI训AI超过5次,模型反噬,性能大减

用AI生成的数据训练AI,不会有魔法,只会被反噬。近日,莱斯大学和斯坦福团队发现,将AI生成的内容喂给模型,只会导致性能下降。研究人员对此给出一种解释,叫做「模型自噬障碍」(MAD)。图片论文地址:https://arxiv.org/abs/2307.01850研究发现在使用AI数据,经过第5次迭代训练后,模型就会患上MAD。在合成数据上训练AI模型会逐渐放大伪影换句话说,如果不能给模型提供「新鲜的数据」,即由人类标注的数据,其输出质量将会受到严重影响。拒绝模型「内耗」目前,MAD尚未确认会影响所有AI模型,不过研究人员已经对自编码器、高斯混合模型、大语言模型进行了验证。作者写道,「世界正在奔

斯坦福校长因学术不端辞职!3篇顶刊论文面临撤稿,本人回应:对学生手下太过信任

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。因陷学术不端争议,斯坦福校长引咎辞职!图片其作为主要作者的5篇相关论文,3篇撤稿2篇修改,全部来自生物领域三大刊Science、Nature和Cell。而且多篇发表在20年前、被引用数百次,是业内重要研究。半年以前,由一位斯坦福大二学生掀起、斯坦福校方成立专门工作组的学术不端调查,如今终于有了最终结果:马克·泰西耶·拉维涅(MarcTessierLavigne)合著多篇论文存在学术不端行为,但无证据显示他本人参与造假篡改数据行为,主要是“手下人操作不当”。拉维涅从8月31日起不再担任斯坦福校长,之后继续留校任教。图片消

体验文心一言AI大模型生成加州理工学院、斯坦福大学、中国科学院大学、淮阴师范学院、南京财经大学、安徽师范大学和山东农业大学简介

加州理工学院(CaliforniaInstituteofTechnology),简称Caltech,创立于1891年,位于美国加利福尼亚州洛杉矶东北郊的帕萨迪纳,是世界顶尖的私立研究型大学,是全球大学校长论坛成员和环太平洋大学联盟成员。加州理工学院在物理学、化学、天文学和空间科学等领域领先世界。截至2023年,学校有66名诺贝尔奖得主、1位菲尔兹奖得主、2位图灵奖得主12。斯坦福大学(StanfordUniversity),全名小利兰·斯坦福大学(LelandStanfordJuniorUniversity),简称“斯坦福”,位于美国加州旧金山湾区南部帕罗奥多市境内,临近高科技园区硅谷(Sil

斯坦福64岁校长辞职!学术造假丑闻发酵,95页调查报告出炉

今天,忽然曝出惊天大瓜——斯坦福大学校长MarcTessier-Lavigne辞职!所以,这是学术不端实锤了?历时7个多月后,在本周三上午,斯坦福的调查结果终于出炉,一份95页文件显示——部分论文存在操纵数据的行为,但没有证据表明Tessier-Lavigne本人操纵了这些数据,但他「无法提供充分的理由」解释自己为什么没有及时纠正这些数据。图片报告地址:https://boardoftrustees.stanford.edu/wp-content/uploads/sites/5/2023/07/Scientific-Panel-Final-Report.pdf但是,为了学校利益,他选择主动请辞

斯坦福大学开源Alpaca模型源码,性能与GPT-3.5相当比GPT4逊色,训练成本不到100美元(教程含源码)

GPT-3.5(text-davinci-003)、ChatGPT、Claude和BingChat等指令遵循模型现在被许多用户广泛使用,包括用于与工作相关的任务。然而,尽管它们越来越受欢迎,但这些模型仍然存在许多需要解决的缺陷。虚假信息、社会刻板印象和有毒语言是与这些模型相关的一些问题。为了解决这些紧迫的问题,学术界需要更积极地参与。不幸的是,由于在功能上接近闭源模型(如OpenAI的text-davinci-003)的模型的可用性有限,因此在学术界研究指令遵循模型一直具有挑战性。为了应对这些挑战,斯坦福大学的研究人员发布了他们关于一种名为Alpaca的指令跟随语言模型的发现。Alpaca从M

斯坦福大学开源Alpaca模型源码,性能与GPT-3.5相当比GPT4逊色,训练成本不到100美元(教程含源码)

GPT-3.5(text-davinci-003)、ChatGPT、Claude和BingChat等指令遵循模型现在被许多用户广泛使用,包括用于与工作相关的任务。然而,尽管它们越来越受欢迎,但这些模型仍然存在许多需要解决的缺陷。虚假信息、社会刻板印象和有毒语言是与这些模型相关的一些问题。为了解决这些紧迫的问题,学术界需要更积极地参与。不幸的是,由于在功能上接近闭源模型(如OpenAI的text-davinci-003)的模型的可用性有限,因此在学术界研究指令遵循模型一直具有挑战性。为了应对这些挑战,斯坦福大学的研究人员发布了他们关于一种名为Alpaca的指令跟随语言模型的发现。Alpaca从M

斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升

继超快且省内存的注意力算法FlashAttention爆火后,升级版的2代来了。FlashAttention-2是一种从头编写的算法,可以加快注意力并减少其内存占用,且没有任何近似值。比起第一代,FlashAttention-2速度提升了2倍。甚至,相较于PyTorch的标准注意力,其运行速度最高可达9倍。一年前,StanfordAILab博士TriDao发布了FlashAttention,让注意力快了2到4倍,如今,FlashAttention已经被许多企业和研究室采用,广泛应用于大多数LLM库。如今,随着长文档查询、编写故事等新用例的需要,大语言模型的上下文以前比过去变长了许多——GPT-

斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。现有大语言模型的训练和推理速度,还能再快一点——快多少?2-4倍。各种大模型都在用的FlashAttention今天正式发布第2代并开源,所有Transformer架构的模型都可使用它来加速。图片一代方法去年6月发布,无需任何近似即可加速注意力并减少内存占用。现在,FlashAttention-2将它再度升级,使其核心注意力操作的速度再提高2倍,端到端训练Transformer时的速度再提高1.3倍,并可在英伟达A100上训练时实现72%的模型FLOP利用率(一般模型都在50%上下)。图片鉴于现在炼一个大语言模型的成本

足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼

之前尝试了从0到1复现斯坦福羊驼(StanfordAlpaca7B),StanfordAlpaca是在LLaMA整个模型上微调,即对预训练模型中的所有参数都进行微调(fullfine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。因此,Alpaca-Lora则是利用Lora技术,在冻结原模型LLaMA参数的情况下,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数。由于这些新增参数数量较少,这样不仅微调的成本显著下降(使用一块RTX4090显卡,只用5个小时就训练了一个与Alpaca水平相当的模型,将这类模型对算力的需求降到了消费级),还能获得和全模型微调(fullfin

足够惊艳,使用Alpaca-Lora基于LLaMA(7B)二十分钟完成微调,效果比肩斯坦福羊驼

之前尝试了从0到1复现斯坦福羊驼(StanfordAlpaca7B),StanfordAlpaca是在LLaMA整个模型上微调,即对预训练模型中的所有参数都进行微调(fullfine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。因此,Alpaca-Lora则是利用Lora技术,在冻结原模型LLaMA参数的情况下,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数。由于这些新增参数数量较少,这样不仅微调的成本显著下降(使用一块RTX4090显卡,只用5个小时就训练了一个与Alpaca水平相当的模型,将这类模型对算力的需求降到了消费级),还能获得和全模型微调(fullfin