草庐IT

伯恩斯坦

全部标签

斯坦福大学:大模型“卷”错方向了?上下文窗口越长,模型越笨!

在语言模型中,上下文窗口对于理解和生成与特定上下文相关的文本至关重要。一般而言较大的上下文窗口可以提供更丰富的语义信息、消除歧义。由于硬件和算法的最新进步,大模型的上下文窗口的长度也越来越“卷”。其中的卷王当属Anthropic公司,其五月份就将Claude的上下文窗口从9ktoken扩展到了100k。最近更新的Claude2更是让其100K的上下文能力“常驻”模型。图片有大模型“风向标”之称ChatGPT也在三月份将GPT-4模型最大上下文窗口达扩至32K;六月份将GPT-3.5-Turbo增加了16k的上下文长度(此前是4k)。图片而斯坦福大学联合加州伯克利大学以及Samaya的研究员,在

斯坦福大学实锤GPT-4变笨了!OpenAI最新回应:确实存在“智力下降”

图片大模型天花板GPT-4,它是不是……变笨了?之前有不少用户提出质疑,并晒出了不少证据。对此,OpenAI7月14日澄清:“我们没有把GPT4弄笨。相反的,我们的每个新版本,都让GPT4比以前更聪明了。”图片PeterWelinder是OpenAI的产品产品VP但为了验证OpenAI的说法,斯坦福大学和加利福尼亚大学伯克利分校的三位研究员调查了3月至6月期间ChatGPT性能的变化。图片论文地址:https://arxiv.org/abs/2307.09009评估的对象包括GPT-3.5和GPT-4两个大模型,并在四个任务上进行测试:数学问题、回答敏感/危险问题、代码生成以及视觉推理。调查结

AI智能体联手GPT-4淘汰人类导演!模仿斯坦福西部世界拍出《南方公园》

AIAgent,又给我们带来了亿点点震撼——AI智能体直接晋升导演,拍出了一集《南方公园》!没错,编剧、动画、导演、语音、编辑……剧集制作的全流程,都是由AI完成。初创公司Fable新发布的节目统筹智能体(Showrunner),如同一声惊雷炸响。项目的灵感,就来自于此前斯坦福爆火的西部世界虚拟小镇论文,其中25个AI智能体居住在包含学校、医院、家庭的沙盒虚拟城镇中。而在这次的《南方公园》中,同样是一群AI角色通过复杂的社交互动来推动自己的日常生活,每个人都有自己独特的背景故事、个性和动机。图片论文地址:https://fablestudio.github.io/showrunner-agen

GPT-5只会更笨!斯坦福莱斯研究警告,AI训AI超过5次,模型反噬,性能大减

用AI生成的数据训练AI,不会有魔法,只会被反噬。近日,莱斯大学和斯坦福团队发现,将AI生成的内容喂给模型,只会导致性能下降。研究人员对此给出一种解释,叫做「模型自噬障碍」(MAD)。图片论文地址:https://arxiv.org/abs/2307.01850研究发现在使用AI数据,经过第5次迭代训练后,模型就会患上MAD。在合成数据上训练AI模型会逐渐放大伪影换句话说,如果不能给模型提供「新鲜的数据」,即由人类标注的数据,其输出质量将会受到严重影响。拒绝模型「内耗」目前,MAD尚未确认会影响所有AI模型,不过研究人员已经对自编码器、高斯混合模型、大语言模型进行了验证。作者写道,「世界正在奔

斯坦福校长因学术不端辞职!3篇顶刊论文面临撤稿,本人回应:对学生手下太过信任

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。因陷学术不端争议,斯坦福校长引咎辞职!图片其作为主要作者的5篇相关论文,3篇撤稿2篇修改,全部来自生物领域三大刊Science、Nature和Cell。而且多篇发表在20年前、被引用数百次,是业内重要研究。半年以前,由一位斯坦福大二学生掀起、斯坦福校方成立专门工作组的学术不端调查,如今终于有了最终结果:马克·泰西耶·拉维涅(MarcTessierLavigne)合著多篇论文存在学术不端行为,但无证据显示他本人参与造假篡改数据行为,主要是“手下人操作不当”。拉维涅从8月31日起不再担任斯坦福校长,之后继续留校任教。图片消

体验文心一言AI大模型生成加州理工学院、斯坦福大学、中国科学院大学、淮阴师范学院、南京财经大学、安徽师范大学和山东农业大学简介

加州理工学院(CaliforniaInstituteofTechnology),简称Caltech,创立于1891年,位于美国加利福尼亚州洛杉矶东北郊的帕萨迪纳,是世界顶尖的私立研究型大学,是全球大学校长论坛成员和环太平洋大学联盟成员。加州理工学院在物理学、化学、天文学和空间科学等领域领先世界。截至2023年,学校有66名诺贝尔奖得主、1位菲尔兹奖得主、2位图灵奖得主12。斯坦福大学(StanfordUniversity),全名小利兰·斯坦福大学(LelandStanfordJuniorUniversity),简称“斯坦福”,位于美国加州旧金山湾区南部帕罗奥多市境内,临近高科技园区硅谷(Sil

斯坦福64岁校长辞职!学术造假丑闻发酵,95页调查报告出炉

今天,忽然曝出惊天大瓜——斯坦福大学校长MarcTessier-Lavigne辞职!所以,这是学术不端实锤了?历时7个多月后,在本周三上午,斯坦福的调查结果终于出炉,一份95页文件显示——部分论文存在操纵数据的行为,但没有证据表明Tessier-Lavigne本人操纵了这些数据,但他「无法提供充分的理由」解释自己为什么没有及时纠正这些数据。图片报告地址:https://boardoftrustees.stanford.edu/wp-content/uploads/sites/5/2023/07/Scientific-Panel-Final-Report.pdf但是,为了学校利益,他选择主动请辞

斯坦福大学开源Alpaca模型源码,性能与GPT-3.5相当比GPT4逊色,训练成本不到100美元(教程含源码)

GPT-3.5(text-davinci-003)、ChatGPT、Claude和BingChat等指令遵循模型现在被许多用户广泛使用,包括用于与工作相关的任务。然而,尽管它们越来越受欢迎,但这些模型仍然存在许多需要解决的缺陷。虚假信息、社会刻板印象和有毒语言是与这些模型相关的一些问题。为了解决这些紧迫的问题,学术界需要更积极地参与。不幸的是,由于在功能上接近闭源模型(如OpenAI的text-davinci-003)的模型的可用性有限,因此在学术界研究指令遵循模型一直具有挑战性。为了应对这些挑战,斯坦福大学的研究人员发布了他们关于一种名为Alpaca的指令跟随语言模型的发现。Alpaca从M

斯坦福大学开源Alpaca模型源码,性能与GPT-3.5相当比GPT4逊色,训练成本不到100美元(教程含源码)

GPT-3.5(text-davinci-003)、ChatGPT、Claude和BingChat等指令遵循模型现在被许多用户广泛使用,包括用于与工作相关的任务。然而,尽管它们越来越受欢迎,但这些模型仍然存在许多需要解决的缺陷。虚假信息、社会刻板印象和有毒语言是与这些模型相关的一些问题。为了解决这些紧迫的问题,学术界需要更积极地参与。不幸的是,由于在功能上接近闭源模型(如OpenAI的text-davinci-003)的模型的可用性有限,因此在学术界研究指令遵循模型一直具有挑战性。为了应对这些挑战,斯坦福大学的研究人员发布了他们关于一种名为Alpaca的指令跟随语言模型的发现。Alpaca从M

斯坦福博士一己之力让Attention提速9倍!FlashAttention燃爆显存,Transformer上下文长度史诗级提升

继超快且省内存的注意力算法FlashAttention爆火后,升级版的2代来了。FlashAttention-2是一种从头编写的算法,可以加快注意力并减少其内存占用,且没有任何近似值。比起第一代,FlashAttention-2速度提升了2倍。甚至,相较于PyTorch的标准注意力,其运行速度最高可达9倍。一年前,StanfordAILab博士TriDao发布了FlashAttention,让注意力快了2到4倍,如今,FlashAttention已经被许多企业和研究室采用,广泛应用于大多数LLM库。如今,随着长文档查询、编写故事等新用例的需要,大语言模型的上下文以前比过去变长了许多——GPT-