vllm_草庐IT

linux部署Mixtral-8x7B-Instruct实践（使用vLLM/ transformer+fastapi）

前提说明：这次实践用了两张A800（80G），每张卡消耗70G显存，总计140Gstep1:下载模型从huggingface（需科学上网）和modelscope两个平台下载模型step2：安装vLLM之前部署大模型用transformer库+OpenAIapi，会有推理速度慢，server部署起来比较复杂的缺点，vLLM是一个LLM推理和服务库，原理类似于操作系统的虚拟内存。现在说怎么安装，安装很简单pipinstallvLLM 要安装3G左右的包。#step3使用vLLM部署Mixtral8*7b（重点）先丢一串命令python-u-mvllm.entrypoints.openai.api_

开源模型应用落地-qwen1.5-7b-chat与vllm实现推理加速的正确姿势（八）

一、前言就在前几天开源社区又发布了qwen1.5版本，它是qwen2模型的测试版本。在本篇学习中，将集成vllm实现模型推理加速，现在，我们赶紧跟上技术发展的脚步，去体验一下新版本模型的推理质量。二、术语2.1.vLLM vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFaceTransformers高14-24倍的吞吐量。2.2.qwen1.5 Qwen1.5是Qwen2的测试版，这是一个基于转换器的纯解码器语言模型，在大量数据上进行了预训练。 Incomparisonwiththeprevi

基于Ray和vLLM构建70B+模型的开源RLHF全量训练框架

背景ChatGPT已经问世一年+了，在训练ChatGPT中必不可少的一环是RLHF训练，目前开源社区已经有了不少RLHF训练框架比如，TRL,DeepSpeedChat或者最近热门的LLaMAFactory。这些框架往往是基于ZeRO等并行方式，将RLHF算法中的四个模型切片后放到同一个GPU上。在模型规模越来越大的今天，这种调度方式无法满足70B+甚至仅13B+模型的全量RLHF训练，必须通过合并ActorCritic模型或者使用LoRA等方式妥协内存使用量。而这些PEFT的方式往往意味着模型效果的妥协。于是乎开源项目：https://github.com/OpenLLMAI/OpenRLH

开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（二）

一、术语介绍 1.1.Gunicorn 一个用于运行PythonWeb应用程序的HTTP服务器。它是一个基于UNIX的预叉（pre-fork）服务器，专为在高并发环境中运行PythonWeb应用程序而设计。 1.2.Flask 一个轻量级的PythonWeb框架，用于构建Web应用程序。它被设计成简单易用且灵活的框架，提供了基本的功能和工具，同时保持了扩展性和可定制性。 1.3.Supervisor 一个用于进程管理的软件工具，通常用于在Unix或类Unix系统上监控和管理后台进程。它可以确保被管理的进程在意外退出或崩溃时能够自动重启，以保持系统的稳定性和可靠性。

LLM大模型推理加速 vLLM；docker推理大模型；Qwen vLLM使用案例；模型生成速度吞吐量计算

参考：https://github.com/vllm-project/vllmhttps://zhuanlan.zhihu.com/p/645732302https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html##文档1、vLLM这里使用的cuda版本是11.4，teslaT4卡加速原理：PagedAttention，主要是利用kv缓存2、qwen测试使用：注意：用最新的qwen7Bv1.1版本的话，vllm要升级到最新0.2.0才可以（https://modelscope.cn/models/qwen/Qwen

使用autodl服务器，两个3090显卡上运行， Yi-34B-Chat-int4模型，并使用vllm优化加速，显存占用42G，速度23 words/s

1，演示视频地址https://www.bilibili.com/video/BV1Hu4y1L7BH/使用autodl服务器，两个3090显卡上运行，Yi-34B-Chat-int4模型，用vllm优化，增加--num-gpu2，速度23words/s2，使用3090显卡和使用A40的方法一样https://blog.csdn.net/freewebsys/article/details/134698597安装软件：先安装最新的torch版本aptupdate&&aptinstall-ygit-lfsnet-tools#gitclonehttps://www.modelscope.cn/01

使用autodl服务器，在A40显卡上运行， Yi-34B-Chat-int4模型，并使用vllm优化加速，显存占用42G，速度18 words/s

1，演示视频https://www.bilibili.com/video/BV1gu4y1c7KL/使用autodl服务器，在A40显卡上运行，Yi-34B-Chat-int4模型，并使用vllm优化加速，显存占用42G，速度18words/s2，关于A40显卡，48GB显存，安培架构2020年，英伟达发布A40专业显卡，配备48GB显存。采用了GA102GPU，拥有10752个CUDA核心。而A40是用于服务器的。A40都配备了四个DP1.4接口，都搭载了48GB的GDDR6显存，最大带宽为696GB/s。显卡的功耗为300W，采用了全新的8pin接口。环境使用：CPU：15核心内存：80G

使用vLLM和ChatGLM3-6b批量推理

当数据量大的时候，比如百万级别，使用ChatGLM3-6b推理的速度是很慢的。发现使用vLLM和ChatGLM3-6b批量推理极大的提高了推理效率。本文主要通过一个简单的例子进行实践。1.安装vLLM和PyTorch[2]除了Python（本文使用3.11）、CUDA（本文使用11.8）外，还要安装vllm、pytorch、xformers等库，特别注意版本要一致。官方提供类库版本主要是针对CUDA12.1版。如下所示：# 用CUDA 11.8安装vLLM# 指定vLLM版本export VLLM_VERSION=0.2.6# 指定Python版本export PYTHON_VERSION=3

【Yi-34B-Chat-Int4】使用4个2080Ti显卡11G版本，运行Yi-34B模型，5年前老显卡是支持的，可以正常运行，速度 21 words/s，vllm要求算力在7以上的显卡就可以

1，演示视频https://www.bilibili.com/video/BV1nj41157L3/Yi-34B（4）：使用4个2080Ti显卡11G版本，运行Yi-34B模型，5年前老显卡是支持的，可以正常运行，速度21words/s2，关于2080TI，5年前老显卡是支持的NVIDIAGeForceRTX2080Ti参数显存容量：11264MB显存位宽：352bit核心频率：1350/1635MHz显存频率：14000MHz发布日期2018年04月环境使用：CPU：12核心内存：40GBGPU：NVIDIAA40,1个可以支持，理论上7.0算力的都支持。主要是vllm支持就行：autodl

【AI实战】大模型 LLM 部署推理框架的 vLLM 应用

【AI实战】大模型LLM部署推理框架的vLLM应用vLLM介绍环境配置环境要求安装vllm算力要求算力查询方法算力问题Quickstart离线批量推理APIServer兼容OpenAIServerServing分布式推理和服务使用SkyPilot运行服务模型vLLM支持的模型添加自己的模型参考vLLM介绍vLLMisafastandeasy-to-uselibraryforLLMinferenceandserving.vLLM速度很快:State-of-the-artservingthroughputEfficientmanagementofattentionkeyandvaluememory