扩散模型,迎来了一项重大新应用——像Sora生成视频一样,给神经网络生成参数,直接打入了AI的底层!这就是新加坡国立大学尤洋教授团队联合UCB、MetaAI实验室等机构最新开源的研究成果。具体来说,研究团队提出了一种用于生成神经网络参数的扩散模型p(arameter)-diff。用它来生成网络参数,速度比直接训练最多提高44倍,而且表现毫不逊色。这一模型一经发布,就迅速在AI社区引发强烈讨论,圈内人士对此的惊叹,毫不亚于普通人看到Sora时的反应。甚至有人直接惊呼,这基本上相当于AI在创造新的AI了。就连AI巨头LeCun看了之后,也点赞了这一成果,表示这真的是个cuteidea。而实质上,p
如果你有被Sora生成的视频震撼到,那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然,扩散模型的潜力并不止步于此,它在许多其它不同领域也有着让人期待的应用前景,更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术,一文综述扩散模型的最新发展方向》。近日,来自新加坡国立大学的尤洋团队、加州大学伯克利分校、MetaAIResearch的一项新研究找到了扩散模型的一个新应用方向:用来生成神经网络的模型参数!论文地址:https://arxiv.org/pdf/2402.13144.pdf项目地址:https://github.com/NUS-HPC-AI-Lab/Neural-Netwo
最近,谷歌DeepMind和斯坦福的研究人员发现:大模型在处理逻辑推理任务时,问题中信息呈现的顺序对模型的表现有着决定性的影响。论文地址:https://arxiv.org/abs/2402.08939具体来说,当信息按照逻辑上的自然顺序排列时,模型的表现会更好。这一发现不仅适用于一般的逻辑推理问题,对于数学问题也同样有效。比如,如果某个证明任务的条件是:1.如果A,那么B;2.如果B,那么C;3.A为真。要求大模型证明C为真,如果条件按照1,2,3的顺序呈现,那么大模型的成功率会比2,1,3的条件呈现顺序高出很多。所以,以后用大模型,言简意赅,符合逻辑地提出问题能让它性能更强。上图展示了一个
2023年年底,很多人都预测,未来一年将是视频生成快速发展的一年。但出人意料的是,农历春节刚过,OpenAI就扔出了一个重磅炸弹——能生成1分钟流畅、逼真视频的Sora。它的出现让很多研究者担心:国内外AI技术的差距是不是又拉大了?根据OpenAI披露的技术报告,Sora的核心技术点之一是将视觉数据转化为patch的统一表示形式,并通过Transformer和扩散模型结合,展现了卓越的scale特性。无独有偶,最近发布的 StableDiffusion3 也采用了同样的架构。其实,这两项工作都是基于Sora核心研发成员WilliamPeebles和纽约大学计算机科学助理教授谢赛宁合著的一篇论文
标题:日志分析技能的匮乏——如何解决网络安全团队的难题引言随着网络攻击手段的日益多样化以及网络设备的复杂化,安全团队面临着越来越大的压力去理解和应对这些威胁.遗憾的是,许多组织的安全团队成员发现他们的技能和知识不足以有效地处理大量的网络数据:日志文件就是其中之一.本文将探讨日志分析所面临的问题、影响以及如何提高这方面的能力来解决这些问题.---目录1.为什么日志分析很重要?*1.1日志记录和收集的重要性*1.2日志分析的必要性*1.3日志分析为安全带来的好处2.常见的安全挑战及原因*2.1分析工具和方法的不成熟或缺乏准确性*2.2安全人员的时间和资源限制导致分析能力的下降*2.3对新出现恶意软
当你来到一个项目不规范的技术团队,你会怎么处理呢? 问题 Testing 流程不规范 没有需求评审和设计评审,需求经常是业务或者项目经理直接跟开发提,有时候开发自己都不明白需求,糊里糊涂地就要开发,也没有设计评审,开发想怎么设计就怎么设计,代码质量差。 有时候下游或者上游开发并没有接到需求,然后这边开发完给到测试,测试也一脸懵逼。 没有计划 上线时间不是根据开发和测试同学排期和评估来定,而是业务和项目经理说了算。 开发完了就跟测试同学说一声,有这么个需求,这个需求今晚/这周上线,你测一下,好像测试是个很随意的工作,并且每个任务给过来都说是紧急需求,测试时间也是不够的,导致测
前言春节刚归来,我们不搞那么烧脑,先来一篇浅显易懂的文章,期望给大家带来一些新的解题思路。背景过去多年无论是一款插件推广,还是组件库统一,无论是一次机制流程制定,还是前端工程化体系建设,相信很多同学与我一样,在跨团队方案推广统一过程中,前期无论做好多详实的准备,最终都会有一种未竟全功的感觉。推广过程中,总会有人摆出历史包袱过重这一拦路虎“说服”我们,比如”我这项目不维护了,无需升级“,”我这项目框架太老旧了,无法升级“,或两者兼有之,到底改哪些项目,多取决于双方自行判断,说穿了其实是双方“非不能也,乃不欲也”。危害一方面前端项目下线充满不确定性,业务不维护不代表页面无访问,旧有项目中总有一些页
最近GPT模型在NLP领域取得了巨大成功。GPT模型首先在大规模的数据上预训练,然后在特定的下游任务的数据上微调。大规模的预训练能够帮助模型学习可泛化的特征,进而让其轻松迁移到下游的任务上。但相比自然语言数据,机器人数据是十分稀缺的。而且机器人数据包括了图片、语言、机器人状态和机器人动作等多种模态。为了突破这些困难,过去的工作尝试用contrastivelearning[1]和maskedmodeling[2]等方式来做预训练以帮助机器人更好的学习。在最新的研究中,ByteDanceResearch团队提出GR-1,首次证明了通过大规模的视频生成式预训练能够大幅提升机器人端到端多任务操作方面的
1前言在《ElasticSearch降本增效常见的方法》一文中曾提到过zstd压缩算法[1],一步一个脚印我们终于在京东ES上线支持了zstd;我觉得促使目标完成主要以下几点原因:Elastic官方原因:zstd压缩算法没有在Elastic官方的开发计划中;Elastic的licenes变更,很多功能使用受限ES产品竞争力:提升京东ES产品在业界的竞争力,两大云友商和其他大厂都在陆续支持,在对外比拼的时候,我们需要提升我们这方面的能力信创大背景:我们需要对开源组件有更好的自主管控和建设能力京东零售ES与云ES产品融合:有更好的机会去打磨我们的ES内核降本增效:ztsd压缩算法,能够在降低存储成
我们知道,大模型到GPT-3.5这种千亿体量以后,训练和推理的算力就不是普通创业公司所能承担的了,人们用起来速度也会很慢。但自本周起,这种观念已成为历史。有名为Groq的初创公司开发出一种机器学习处理器,据称在大语言模型任务上彻底击败了GPU——比英伟达的GPU快10倍,而成本仅为GPU的10%,只需要十分之一的电力。这是在Groq上运行Llama2的速度:来源:https://twitter.com/emollick/status/1759633391098732967这是Groq(Llama2)和ChatGPT面对同一个prompt的表现:图源:https://x.com/JayScamb