草庐IT

大型活动容量支撑速增10+倍,B站容量管理下的资源活化

一、容量管理的设计理念1、为什么要做容量管理?1)容量风险未知集群/资源池/Node容量水位缺乏可视化,稳定性难以保证随着云原生和K8S普及,若没有很好的容量管理,我们就无法感知整个集群、整个资源池以及Node容量的水位变化,也无法得知是否有必要采购资源,无法察觉整体的资源风险。容量变更根因难以追溯有时我们在做一些发版或迭代时,会发现原本充足的资源突然出现紧缺。此时,若要查探容量何时变化或追溯变化的根因,存在一定难度,也比较复杂。HPA覆盖率低,业务稳定性难以保障B站有很多活动和突发流量,但由于HPA的覆盖率比较低,业务容量弹性往往难以保障。2)降本增效大背景资源使用率低,迫切需要提高整体使用

DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率

大型AI模型正在改变数字世界。基于大型语言模型(LLM)的Turing-NLG、ChatGPT和GPT-4等生成语言模型用途广泛,能够执行摘要、代码生成和翻译等任务。同样,DALL・E、MicrosoftDesigner和BingImageCreator等大型多模态生成模型可以生成艺术、建筑、视频和其他数字资产,使内容创作者、建筑师和工程师能够探索全新的创意生产力。然而,训练这些大型模型需要在数百甚至数千个GPU设备上使用大量内存和计算资源。例如,训练Megatron-TuringNLG530B模型需要使用超过4,000个NVidiaA100GPU。有效地利用这些资源需要一个复杂的优化系统,以

文心一言迭代数据曝光,QPS提升10倍,留给大模型创业玩家的涌现时间不多了...

杨净发自凹非寺量子位|公众号QbitAI文心一言上线内测一个月后,首份迭代数据曝光:一个月共迭代4次;模型推理效率提升10倍,最近一次带来的推理提升达到123%;推理性能提升50%,模型算力利用率提升1倍。简单归纳就是说,迭代很快、不仅成本降下来了,顺便还把性能提升了?!要知道过去一个月内,全球网友们的热情被这场技术风暴所点燃,人们玩得不亦乐乎,ChatGPT也overload了好几次。作为国内率先发布的文心一言,是如何保持住高效迭代的?在这份成绩单中,找到了答案。文心一言首月数据曝光曝光的数据不多,但全都是关键技术指标——大模型训练与推理方面的数据,直接影响后续产品体验效果的好坏。首先,迭代

比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半

过去2个月,来自UC伯克利的研究人员给大语言模型们安排了一个擂台——ChatbotArena。GPT-4等大语言模型玩家打起了「排位赛」,通过随机battle,根据Elo得分来排名。这一过程中,每当一个用户访问并使用网站,就需要同时让两个不同的模型跑起来。他们是如何做到的?这不,就在今天,UC伯克利重磅开源了世界最快LLM推理和服务系统vLLM。简之,vLLM是一个开源的LLM推理和服务引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力键和值。配备全新算法的vLLM,重新定义了LLM服务的最新技术水平:与HuggingFaceTransformers相比,它提供高

小羊驼背后的英雄,伯克利开源LLM推理与服务库:GPU减半、吞吐数十倍猛增

随着大语言模型(LLM)的不断发展,这些模型在很大程度上改变了人类使用AI的方式。然而,实际上为这些模型提供服务仍然存在挑战,即使在昂贵的硬件上也可能慢得惊人。现在这种限制正在被打破。最近,来自加州大学伯克利分校的研究者开源了一个项目vLLM,该项目主要用于快速LLM推理和服务。vLLM的核心是PagedAttention,这是一种新颖的注意力算法,它将在操作系统的虚拟内存中分页的经典思想引入到LLM服务中。配备了PagedAttention的vLLM将LLM服务状态重新定义:它比HuggingFaceTransformers提供高达24倍的吞吐量,而无需任何模型架构更改。项目地址:https

极兔一面:10亿级ES海量搜索狂飙10倍,该怎么办?

背景说明:ES高性能全文索引,如果不会用,或者没有用过,在面试中,会非常吃亏。所以ES的实操和底层原理,大家要好好准备。另外,ES调优是一个非常、非常核心的面试知识点,大家要非常重视。在40岁老架构师尼恩的读者交流群(50+)中,其ES相关面试题是一个非常、非常高频的交流话题。近段时间,有小伙伴面试极兔,说遇到一个ES海量数据调优的面试题:ES在承载海量数据,在查询时会存在什么问题?如何优化?社群中,还遇到过大概的变种:形式1:10亿级ES索引单次查询在5-10s,要调优10倍?怎么办?形式2:ES海量索引单次查询速度太慢?如何调优?形式3:ES在数据量很大的情况下(数十亿级别)如何提高查询效

更智能、更强大:OpenAI发布升级版gpt-3.5-turbo-0613/16k速度提升,长度飙升4倍

OpenAI开发者平台最近推出了两个引人注目的GPT升级版本:gpt-3.5-turbo-0613和gpt-3.5-turbo-16k。这些新版本带来了一系列令人兴奋的功能和增强,为开发者提供了更加灵活和强大的自然语言处理工具。本文将为您介绍这两个版本的主要特点和优势。gpt-3.5-turbo-0613和gpt-3.5-turbo-16k的推出为开发者提供了更强大和多样化的自然语言处理工具。函数调用功能和系统消息改进使得模型更加可控和定制化,而更长的上下文长度则扩展了模型的应用范围。开AI团队的这一升级进一步巩固了GPT系列模型的领先地位,并为开发者提供了更多创造力和创新性的空间。我们很高兴

c - Unix 域套接字在 Solaris 10 上比在 Linux 上慢 100 倍?

我正在为一个项目在Linux和Solaris上对本地套接字性能进行基准测试。出于某种原因,我无法找出,Solaris上的性能大约比Linux差100倍。在Linux中,打开一个套接字,每次交换一个非常短(2个字符)的消息并关闭它需要大约10us的时间。在Solaris上,同样的事情大约需要1000us。设置是VirtualBox和Linux中的Solaris10开发人员虚拟机,它们都在同一个VirtualBox中并且直接在同一个硬件上(没有区别)。这是Solaris的已知问题吗?有什么方法可以解决吗?由于无法进入此处的原因,我无法使用本地网络连接。下面的客户端和服务器代码。使用“cc-

c - Unix 域套接字在 Solaris 10 上比在 Linux 上慢 100 倍?

我正在为一个项目在Linux和Solaris上对本地套接字性能进行基准测试。出于某种原因,我无法找出,Solaris上的性能大约比Linux差100倍。在Linux中,打开一个套接字,每次交换一个非常短(2个字符)的消息并关闭它需要大约10us的时间。在Solaris上,同样的事情大约需要1000us。设置是VirtualBox和Linux中的Solaris10开发人员虚拟机,它们都在同一个VirtualBox中并且直接在同一个硬件上(没有区别)。这是Solaris的已知问题吗?有什么方法可以解决吗?由于无法进入此处的原因,我无法使用本地网络连接。下面的客户端和服务器代码。使用“cc-

ChatGPT凌晨重磅更新!GPT-3.5/4双升级:上下文飙升4倍,用API自己造插件

ChatGPT突然更新!今天凌晨,OpenAI在官网上发布了所有更新细节,包含以下这几个方面:在ChatCompletionsAPI中增加了新的函数调用能力更新了GPT-4和GPT-3.5-Turbo版本,可操控性更强为GPT-3.5-Turbo增加了16k的上下文长度(此前是4k)嵌入模型成本降低75%GPT-3.5-Turbo的输入token成本降低25%公布了GPT-3.5-Turbo-0301和GPT-4-0314模型的淘汰时间表其中备受关注的应该就是新的函数调用能力,GPT-4和GPT-3.5-Turbo两个模型的升级,以及各种降成本。对此,推特网友「宝玉」表示,OpenAI这次更新