本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。LLaMA可谓是「驼红是非多」。新版本刚发布没多久,就遭到了LSTM之父JürgenSchmidhuber的炮轰。你「饭来张口」也就算了,竟然还「放下碗骂娘」?Schmidhuber称,Meta在训练LLaMA2的时候用到了他在1991年提出的想法,结果LLaMA却对他疯狂抹黑。一开始,网友发现在询问LLaMA2关于Schmidhuber的事时,得到了令人意外的回复。抱歉,我不能提供关于有负面背景的人的信息……LLaMA还说,Schmidhuber「从事过有害活动」「对社会没有贡献」云云。有网友猜测,这个回答是LeCu
LSTM之父暴脾气又来了!这...究竟是怎么回事?今天,JürgenSchmidhuber在社交媒体上表示,Meta用了自己在1991年的想法训练Llama2。用了我的idea不说,Llama2还暗示我参与了有害活动,并且没有对社会做出积极贡献。甚至,老爷子直接在线点名,让Meta和Llama负责人LeCun出面解决此事。图片附上的配图中,一位加州大学戴维斯分校的博士在与Llama2对话中,发现对Schmidhuber介绍非常地冒犯。底下还有网友煽风点火,这看起来像是YannLeCun自己加进去的答案。图片一向就爱热闹的马库斯也被炸出来了:「可以说是LLM诽谤的最典型案例了。Schmidhub
昨天,Meta发布了免费可商用版本Llama2,再一次给开源社区做出了惊人贡献。Meta联手微软高调开源的Llama2,一共有70亿、130亿和700亿三个参数的版本。Llama2在2万亿个token上训练的,上下文长度达到了4k,是Llama1的2倍。而微调模型已在超100万个人类标注中进行了训练。比起很多其他开源语言模型,Llama2都实现了秒杀,在推理、编码、能力和知识测试上取得了SOTA。Meta首席科学家LeCun也在今天狂转了一大波Llama2的实现。图片图片图片图片图片那么,Llama2的表现究竟如何呢?UC伯克利最新测评就在刚刚,权威的UC伯克利聊天机器人竞技场,已经火速出了L
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。Completebullshit.完全胡扯。这么一句简短犀利评论,竟是出自深度学习三巨头之一的YannLeCun之口。图片而让他如此怒怼的事情,则是在日内瓦召开的世界首场人机新闻发布会。顾名思义,在这场新闻发布会中,一共由九个人形机器人和它们的创造者共同参与。△图源:路透社路透社将这件事情描述为:Robotssaytheywon’tstealjobs,rebelagainsthumans.机器人说他们不会偷(人类的)工作,不会反抗人类。虽然LeCun也礼貌性地写了一句“原谅我的粗鲁(Pardonmyfrench)”,但
文章目录一、背景二、方法2.1DETR2.2MDETR三、效果3.1预训练调整后的检测器3.2下游任务论文:MDETR-ModulatedDetectionforEnd-to-EndMulti-ModalUnderstanding代码:https://github.com/ashkamath/mdetr出处:ICCV2021Oral|YannLeCun|NYU|FacebookAI时间:2021.10贡献:提出了端到端的text-modulated检测系统打破了传统目标检测只能检测特定类别的限制,可以实现对任意形式文本输入中提及的内容进行检测一、背景目标检测在很多多模态理解系统中有着很重要的作
自监督学习(SSL)在最近几年取得了很大的进展,在许多下游任务上几乎已经达到监督学习方法的水平。但是,由于模型的复杂性以及缺乏有标注训练数据集,我们还一直难以理解学习到的表征及其底层的工作机制。此外,自监督学习中使用的pretext任务通常与特定下游任务的直接关系不大,这就进一步增大了解释所学习到的表征的复杂性。而在监督式分类中,所学到的表征的结构往往很简单。相比于传统的分类任务(目标是准确将样本归入特定类别),现代SSL算法的目标通常是最小化包含两大成分的损失函数:一是对增强过的样本进行聚类(不变性约束),二是防止表征坍缩(正则化约束)。举个例子,对于同一样本经过不同增强之后的数据,对比式学
前段时间,初出茅庐的猎鹰(Falcon)在LLM排行榜碾压LLaMA,在整个社区激起千层浪。但是,猎鹰真的比LLaMA好吗?简短回答:可能不是。符尧团队对模型做了更深入的测评:「我们在MMLU上复现了LLaMA65B的评估,得到了61.4的分数,接近官方分数(63.4),远高于其在OpenLLMLeaderboard上的分数(48.8),而且明显高于猎鹰(52.7)。」没有花哨的提示工程,没有花哨的解码,一切都是默认设置。目前,Github上已经公开了代码和测试方法。对于猎鹰超越LLaMA存疑,LeCun表态,测试脚本的问题...LLaMA真·实力目前在OpenLLM排行榜上,Falcon位列
过去十多年,AI的飞速发展主要是工程实践上的进步,AI理论并没有起到指导算法开发的作用,经验设计的神经网络依然是一个黑盒。而随着ChatGPT的爆火,AI的能力也被不断夸大、炒作,甚至到了威胁、绑架社会的地步,让Transformer架构设计变透明已刻不容缓!最近,马毅教授团队发布了最新研究成果,设计了一个完全可用数学解释的白盒Transformer模型CRATE,并在真实世界数据集ImageNet-1K上取得了接近ViT的性能。代码链接:https://github.com/Ma-Lab-Berkeley/CRATE论文链接:https://arxiv.org/abs/2306.01129在
人人都知,让ChatGPT称霸天下的秘密武器,就是人类反馈强化学习(RLHF)。而现在,MetaAI等机构的爆火研究LIMA直接打破这一规则,直言RLHF并没有那么重要!论文一出,直接在AI圈炸了锅!就连LeCun忍不住发推炫一番:LIMA:LLaMa-65B+1000监督样本=GPT-4/Bard级别的性能。正如标题所称,LIMA是「LessisMoreforAlignment」,暗示着一个强大的预训练AI模型,通过几个样本就足以实现高质量的结果。而LIMA仅在1000个精心挑选的样本上微调LLaMa-65B,而且无需RLHF,就实现了与GPT-4和Bard相媲美的性能。论文地址:https
我想了解如何打开thisversionoftheMNISTdataset.例如训练集标签文件train-labels-idx1-ubyte定义为:TRAININGSETLABELFILE(train-labels-idx1-ubyte):[offset][type][value][description]000032bitinteger0x00000801(2049)magicnumber(MSBfirst)000432bitinteger60000numberofitems0008unsignedbyte??label0009unsignedbyte??label........xx