草庐IT

大模型“涌现”的思维链,究竟是一种什么能力?

听说最近AI大厂的开发人员和高校的NLP研究人员,都在琢磨,怎么让大模型“涌现”。那画面莫名就让我想到了程序员给服务器上香来保佑不宕机,都有种求诸于天的玄学。所谓“涌现”,在大模型领域指的是当模型突破某个规模时,性能显著提升,表现出让人惊艳、意想不到的能力。比如语言理解能力、生成能力、逻辑推理能力等。一般来说,模型在100亿到1000亿参数区间,可能产生能力涌现。但老话说得好“氪不救非,玄不改命”。靠砸钱和运气,只一味把模型做的大大大,也未必能让AI“显灵”。强大的逻辑推理是大语言模型“智能涌现”出的核心能力之一,好像AI有了人的意识一样。而推理能力的关键,在于一个技术——思维链(Chaino

OpenAI超级视频模型Sora技术报告解读,虚拟世界涌现了

昨天白天,「现实不存在了」开始全网刷屏。「我们这么快就步入下一个时代了?Sora简直太炸裂了」。「这就是电影制作的未来」!谷歌的GeminiPro1.5还没出几个小时的风头,天一亮,全世界的聚光灯就集中在了OpenAI的Sora身上。Sora一出,众视频模型臣服。就在几小时后,OpenAISora的技术报告也发布了!其中,「里程碑」也成为报告中的关键词。报告地址:https://openai.com/research/video-generation-models-as-world-simulators技术报告主要介绍了两个方面:(1)如何将不同类型的视觉数据转化为统一的格式,以便于对生成模型

大模型2024规模化场景涌现,加速云计算走出第二增长曲线

导读:2024,大模型第一批规模化应用场景已出现。如果说“百模大战”是2023年国内AI产业的关键词,那么2024年我们将正式迈进“应用为王”的新阶段。不少业内观点认为,2024年“百模大战”将逐渐收敛甚至洗牌,而大模型在千行万业的应用将从小规模试水,逐渐走向规模化落地。展望2024,哪些场景更有可能率先实现大模型的规模化应用?如果将大模型的应用场景分为互联网和政企两大类,基于产业观察,「智能进化论」认为:在互联网领域,搜索增强、多媒体内容生成(AIGC推理)、智能NPC、量化投研有望成为第一批规模化应用的场景;在政企领域,政企AI算力调度平台、智能驾驶、销售预测、柔性制造、国产化AI大模型中

南大周志华团队8年力作!「学件」系统解决机器学习复用难题,「模型融合」涌现科研新范式

HuggingFace是目前最火热的机器学习开源社区,汇集30万个不同的机器学习模型,有超过10万个应用可供用户访问和使用。如果HuggingFace上这30万个模型,可以自由组合,共同完成新的学习任务,那会是一种什么样的画面?其实在HuggingFace问世的2016年,南京大学周志华教授就提出了「学件」(Learnware)概念,描绘了这样的蓝图。最近,南京大学周志华教授团队推出了一个这样的平台——北冥坞。地址:https://bmwu.cloud/北冥坞不但可以让科研人员和用户像使用HuggingFace一样上传自己的模型,还可以基于基座系统,根据用户的需求进行模型匹配、协作融合,高效处

2023计算机科学7项重大突破!「P与NP」50年经典难题,大模型密集涌现上榜

一年一度的年终盘点来了!2023年,计算机科学领域大事件人人都能脱口而出,火遍全网的ChatGPT一系列大模型、AI作画神器Midjourney,AI视频生成Gen-2、Pika飞速迭代......在「P与NP」最经典的问题上,研究人员取得了微妙但重要的进展。秀尔算法(Shor’salgorithm),量子计算的杀手级应用程序,在近30年后进行了首次重大升级。还有研究人员终于学会了如何在理论上通过一种普通类型的网络,以最快速度找到最短路径。此外,加密学家在与AI建立意想不到的连接时,展示了机器学习模型和机器生成内容也必须应对隐藏的漏洞和消息。Top1:50年P与NP难题,「元复杂性」理论开路5

MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力

对于人类来说,句子是分层的。句子的层次结构对于表达和理解都相当重要。但是在自然语言处理中,之前的研究认为,在泛化到新的结构输入时,以Transformer为代表的神经序列模型似乎很难有效地捕捉到这种句子的层级结构。但是斯坦福和MIT的研究人员在最近的研究中发现。如果对Transformer类的模型进行长时间的训练之后,它能获得这种结构性的泛化能力。研究人员将这种现象称为:结构顿悟(StructuralGrokking,SG)Grokking这个词是一个作家在书中造出来的词,中文大概翻译成「顿悟」。微博网友木遥老师把这个词解释为:一个高度复杂的神经网络在漫长的训练期内一直只能记住训练样本的信息,

LeCun引战,LLM根本不会推理!大模型「涌现」,终究离不开上下文学习

大语言模型到底会不会推理?涌现出来的各种能力到底来源是什么?前段时间,LeCun在自己推特上转发了好几篇文章,集中讨论了这个问题:「自回归LLM无法制定计划(并且无法真正推理)」。而LeCun转发第二篇论文,则讨论了LLM涌现能力。原推表示,不管大伙相不相信LLM的涌现能力,这篇文章都值得一读:「经过了超过1000次的系列实验,我们证明了大语言模型所谓的涌现能力,其实仅仅是上下文学习而已。」LLM真的能推理和规划吗?SubbaraoKambhampat的文章认为,网上对于LLM能够推理和规划的说法,本身不太站得住脚,但是学界对于这个问题,也开始进行了很严肃地研究。至少以他之前针对GPT-3的研

推动数据中心液体冷却市场的先进技术涌现

随着技术的发展,更强大的服务器、HPC集群和产生大量热量的GPU被安置在数据中心。按组件划分,据估计,从2023年到2028年,服务细分市场是增长最快的数据中心液体冷却细分市场。从数据中心液体冷却市场的组成部分来看,服务细分市场预计将成为2023年至2028年增长最快的细分市场。数据中心液体冷却服务提供商提供的系统集成服务涉及将液体冷却技术与数据中心的IT基础设施进行集成。服务细分市场可确保数据中心环境内冷却基础设施的可靠性、有效性和性能,从而帮助数据中心运营商实施和维护高效的液体冷却解决方案。按数据中心类型划分,中小型数据中心细分市场预计将成为2023年至2028年数据中心液体冷却市场中增长

【人工智能】大模型的涌现能力:概念、原理、本质和未来发展趋势

目录人工智能中的大模型大模型的涌现能力的原理大模型的涌现能力的本质涌现能力的定义

通用人工智能:涌现能力、代理执行、功能可见、具身应用——人与机器的共同进化

目录通用人工智能:涌现能力、代理执行、功能可见性、具身应用——人与机器的共同进化