大规_草庐IT

大规模深度学习框架 DeepSpeed 使用指南

最常见的深度学习框架应该是TensorFlow、Pytorch、Keras，但是这些框架在面向大规模模型的时候都不是很方便。比如Pytorch的分布式并行计算框架（DistributedDataParallel，简称DDP），它也仅仅是能将数据并行，放到各个GPU的模型上进行训练。也就是说，DDP的应用场景在你的模型大小大于显卡显存大小时，它就无法使用了，除非你自己再将模型参数拆散分散到各个GPU上。今天要给大家介绍的DeepSpeed，它就能实现这个拆散功能，它通过将模型参数拆散分布到各个GPU上，以实现大型模型的计算，弥补了DDP的缺点，非常方便，这也就意味着我们能用更少的GPU训练更大的

首个大规模图文多模态数据集LAION-400M介绍

前言openAI的图文多模态模型CLIP证明了图文多模态在多个领域都具有着巨大潜力，随之而来掀起了一股图文对比学习的风潮。就在前几天（2022年12月），连Kaiming都入手这一领域，将MAE的思路与CLIP的思路结合，推出了FLIP，有兴趣可戳（https://arxiv.org/abs/2212.00794）。对于迷茫的CV研究生，如果你找不到研究方向，justfollowKaiming绝对不会出错。LAION今天要介绍的是一个优秀的图文多模态数据集LAION，跟CLIP原始训练数据集就有相当体量，即400个million。我第一次接触OpenAI的CLIP工作的时候，完全被其zero-

阿里云化身“智能云管”，助力中国联通首次实现大规模平台自主运维

中国联通阿里飞天平台运维团队首次实现大规模平台自主运维，阿里云TAM团队化身“智能云管”，携手中国联通开启运维合作新模式。近日，中国联通阿里飞天平台运维团队（以下简称“联通阿里MSP团队”）首次独立进行联通5个专有云平台的一线运维工作，问题自解决率达到75%，这是联通阿里MSP团队能力成长的重大里程碑，标志着中国联通已具备阿里平台大规模自主运维能力，同时也标志着阿里云与中国联通开启运维合作新模式。中国联通拥有覆盖全国、通达世界的现代通信网络和全球客户服务体系，主要经营固定通信业务，截至2022年，用户规模达到4.6亿。为拥抱数字化浪潮，中国联通同阿里云全面展开深入合作，将多个核心业务部署到阿里

如何实现Web3去中心化云计算的大规模采用？

随着区块链技术的迅猛发展，Web3去中心化云计算正在逐渐崭露头角。它以分布式、安全和透明的特点，为用户和企业提供了许多独特的优势。然而，要实现Web3去中心化云计算的大规模采用，仍然面临着一些挑战。本文将探讨这些挑战，并提出一些关键的解决方案，以推动Web3去中心化云计算的广泛应用。1.引言Web3是下一代互联网的概念，它以去中心化和区块链技术为基础，致力于构建一个更加开放、透明和民主的互联网环境。去中心化云计算作为Web3的重要组成部分，将为用户提供更安全、可靠和灵活的计算资源。2.挑战实现Web3去中心化云计算的大规模采用面临以下挑战：2.1可扩展性：当前的区块链技术在处理大规模计算任务时

LLM 大规模语言模型综述

来源：中国人民大学人工智能学院和信息学院github地址：RUCAIBox/LLMSurvey论文：ASurveyofLargeLanguageModels时间：2023年3月31日一、摘要语言本质上是一个复杂、错综复杂的人类表达系统，受语法规则支配。开发用于理解和掌握语言的有能力的AI算法是一项重大挑战。作为一种主要方法，语言建模在过去二十年中被广泛研究用于语言理解和生成，从统计语言模型发展到神经语言模型。近年来，LLMs的研究得到了学术界和产业界的大力推进，其中一个引人注目的进展是ChatGPT的推出，引起了社会的广泛关注。LLM的技术发展对整个AI社区产生了重要影响，这将彻底改变我们开发

从0到1：如何建立一个大规模多语言代码生成预训练模型

国产AI辅助编程工具CodeGeeX是一个使用AI大模型为基座的辅助编程工具，帮助开发人员更快的编写代码。可以自动完成整个函数的编写，只需要根据注释或Tab按键即可。它已经在Java、JavaScript和Python等二十多种语言上进行了训练，并基于大量公开的开源代码、官方文档和公共论坛上的代码来优化自己的算法。CodeGeeX作为一款中国原创的AI辅助编程工具，现在免费提供给所有开发者使用，同时完全开源，程序员使用普遍认为编写代码的效率提升2倍以上。核心功能包括：代码生成与智能补全、自动为代码添加中英文注释、在不同编程语言的代码之间实现准确翻译，包括刚刚更新的“AskCodeGeeX”功能

联合利华公司实施大规模云迁移的经验和教训

全球消费品巨头联合利华公司最近宣布，该公司已经将旗下400多个家用品牌的业务全部迁移到微软的Azure云平台上，这是有史以来规模最大的云迁移之一。联合利华公司表示，此举将有助于该公司加快产品发布，加强客户服务，提高运营效率。它还将通过控制自身技术堆栈的碳排放，帮助其实现可持续发展。联合利华公司首席企业和技术官SteveMcCrystal表示:“很少有像我们这样规模庞大、历史悠久的公司能够宣称实现了这种水平的云迁移。我们有信心是因为已经走在正确的道路上，这将在速度和灵活性方面带来一个阶段性的变化。”联合利华公司的云迁移并非个例，随着越来越多的企业努力实现其技术的现代化，大规模云迁移正变得越来越普

大数据系统与大规模数据分析学习笔记（区块链篇）

大数据系统与大规模数据分析学习笔记（区块链篇）1.一致性哈希(distributedhashtable)传统哈希方法在增加或者减少服务器节点时，会导致哈希得到的结果不一致，从而将流量全导向后台服务器，造成缓存雪崩。一致性哈希，该算法可以有效解决分布式存储结构下动态增加和删除节点带来的问题。原理：构造出一个哈希环，将每个节点都放在一个哈希环上，当用户需要获取资源时，都在哈希环上顺时针查找，找到的第一个节点就是资源存储的位置，当新加入一个服务器节点时，只会使一部分缓存失效，不会像传统方法一样全部失效，当减少一个节点时，同理。缺点：容易造成哈希倾斜，节点并不会理想的均匀在哈希环上分布，负载均衡

首个大规模使用工具的大模型来了：伯克利发布Gorilla

大型语言模型性能强大，但为了更好地用于解决实际问题，各式各样的API是必不可少的。近日，加利福尼亚大学伯克利分校和微软研究院造出了一只「大猩猩」Gorilla，该模型能根据用户输入的自然语言为用户选择合适的API来执行对应任务。理论上讲，这个模型可以根据用户需求调用其它各种AI模型，因此Gorilla有望成为一个统御其它AI的AI模型。该项目的代码、模型、数据和演示都已发布。网站：gorilla.cs.berkeley.edu论文：arxiv.org/abs/2305.15334GitHub：https://github.com/ShishirPatil/gorilla/GorillaSpot

BloomFilter：如何在大规模数据集中进行快速搜索？

在设计应用程序时，我们经常会遇到这样的场景：检查某个元素是否存在于集合中。例如，当创建一个新的电子邮件帐户时，你需要输入一个电子邮件地址。系统会告诉你电子邮件地址是否已被占用。如果已经参加，你将测试不同的，直到找到可用的。在后端，系统会根据数百万个现有电子邮件地址检查你的电子邮件地址，以检查是否存在匹配项。并且系统会在几分之一秒内回答你。传统的索引线性搜索无法快速给出结果。哈希映射可以完成这项工作，但它会占用大量内存空间。布隆过滤器是上述用例的最佳解决方案。它的最佳场景实践如下：需要快速检查某个项目是否在列表中。列表很大，内存空间有限。什么是布隆过滤器？布隆过滤器（Bloomfilter）是一