前提说明:这次实践用了两张A800(80G),每张卡消耗70G显存,总计140Gstep1:下载模型从huggingface(需科学上网)和modelscope两个平台下载模型step2:安装vLLM之前部署大模型用transformer库+OpenAIapi,会有推理速度慢,server部署起来比较复杂的缺点,vLLM是一个LLM推理和服务库,原理类似于操作系统的虚拟内存。现在说怎么安装,安装很简单pipinstallvLLM 要安装3G左右的包。#step3使用vLLM部署Mixtral8*7b(重点)先丢一串命令python-u-mvllm.entrypoints.openai.api_
一、前言 就在前几天开源社区又发布了qwen1.5版本,它是qwen2模型的测试版本。在本篇学习中,将集成vllm实现模型推理加速,现在,我们赶紧跟上技术发展的脚步,去体验一下新版本模型的推理质量。二、术语2.1.vLLM vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFaceTransformers高14-24倍的吞吐量。2.2.qwen1.5 Qwen1.5是Qwen2的测试版,这是一个基于转换器的纯解码器语言模型,在大量数据上进行了预训练。 Incomparisonwiththeprevi
背景ChatGPT已经问世一年+了,在训练ChatGPT中必不可少的一环是RLHF训练,目前开源社区已经有了不少RLHF训练框架比如,TRL,DeepSpeedChat或者最近热门的LLaMAFactory。这些框架往往是基于ZeRO等并行方式,将RLHF算法中的四个模型切片后放到同一个GPU上。在模型规模越来越大的今天,这种调度方式无法满足70B+甚至仅13B+模型的全量RLHF训练,必须通过合并ActorCritic模型或者使用LoRA等方式妥协内存使用量。而这些PEFT的方式往往意味着模型效果的妥协。于是乎开源项目:https://github.com/OpenLLMAI/OpenRLH
一、术语介绍 1.1.Gunicorn 一个用于运行PythonWeb应用程序的HTTP服务器。它是一个基于UNIX的预叉(pre-fork)服务器,专为在高并发环境中运行PythonWeb应用程序而设计。 1.2.Flask 一个轻量级的PythonWeb框架,用于构建Web应用程序。它被设计成简单易用且灵活的框架,提供了基本的功能和工具,同时保持了扩展性和可定制性。 1.3.Supervisor 一个用于进程管理的软件工具,通常用于在Unix或类Unix系统上监控和管理后台进程。它可以确保被管理的进程在意外退出或崩溃时能够自动重启,以保持系统的稳定性和可靠性。
参考:https://github.com/vllm-project/vllmhttps://zhuanlan.zhihu.com/p/645732302https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html##文档1、vLLM这里使用的cuda版本是11.4,teslaT4卡加速原理:PagedAttention,主要是利用kv缓存2、qwen测试使用:注意:用最新的qwen7Bv1.1版本的话,vllm要升级到最新0.2.0才可以(https://modelscope.cn/models/qwen/Qwen
1,演示视频地址https://www.bilibili.com/video/BV1Hu4y1L7BH/使用autodl服务器,两个3090显卡上运行,Yi-34B-Chat-int4模型,用vllm优化,增加--num-gpu2,速度23words/s2,使用3090显卡和使用A40的方法一样https://blog.csdn.net/freewebsys/article/details/134698597安装软件:先安装最新的torch版本aptupdate&&aptinstall-ygit-lfsnet-tools#gitclonehttps://www.modelscope.cn/01
1,演示视频https://www.bilibili.com/video/BV1gu4y1c7KL/使用autodl服务器,在A40显卡上运行,Yi-34B-Chat-int4模型,并使用vllm优化加速,显存占用42G,速度18words/s2,关于A40显卡,48GB显存,安培架构2020年,英伟达发布A40专业显卡,配备48GB显存。采用了GA102GPU,拥有10752个CUDA核心。而A40是用于服务器的。A40都配备了四个DP1.4接口,都搭载了48GB的GDDR6显存,最大带宽为696GB/s。显卡的功耗为300W,采用了全新的8pin接口。环境使用:CPU:15核心内存:80G
当数据量大的时候,比如百万级别,使用ChatGLM3-6b推理的速度是很慢的。发现使用vLLM和ChatGLM3-6b批量推理极大的提高了推理效率。本文主要通过一个简单的例子进行实践。1.安装vLLM和PyTorch[2]除了Python(本文使用3.11)、CUDA(本文使用11.8)外,还要安装vllm、pytorch、xformers等库,特别注意版本要一致。官方提供类库版本主要是针对CUDA12.1版。如下所示:# 用CUDA 11.8安装vLLM# 指定vLLM版本export VLLM_VERSION=0.2.6# 指定Python版本export PYTHON_VERSION=3
1,演示视频https://www.bilibili.com/video/BV1nj41157L3/Yi-34B(4):使用4个2080Ti显卡11G版本,运行Yi-34B模型,5年前老显卡是支持的,可以正常运行,速度21words/s2,关于2080TI,5年前老显卡是支持的NVIDIAGeForceRTX2080Ti参数显存容量:11264MB显存位宽:352bit核心频率:1350/1635MHz显存频率:14000MHz发布日期2018年04月环境使用:CPU:12核心内存:40GBGPU:NVIDIAA40,1个可以支持,理论上7.0算力的都支持。主要是vllm支持就行:autodl
【AI实战】大模型LLM部署推理框架的vLLM应用vLLM介绍环境配置环境要求安装vllm算力要求算力查询方法算力问题Quickstart离线批量推理APIServer兼容OpenAIServerServing分布式推理和服务使用SkyPilot运行服务模型vLLM支持的模型添加自己的模型参考vLLM介绍vLLMisafastandeasy-to-uselibraryforLLMinferenceandserving.vLLM速度很快:State-of-the-artservingthroughputEfficientmanagementofattentionkeyandvaluememory