推理

得物AI平台-KubeAI推理训练引擎设计和实践

1.KubeAI介绍KubeAI是得物AI平台，是我们在容器化过程中，逐步收集和挖掘公司各业务域在AI模型研究和生产迭代过程中的需求，逐步建设而成的一个云原生AI平台。KubeAI以模型为主线提供了从模型开发，到模型训练，再到推理(模型)服务管理，以及模型版本持续迭代的整个生命周期内的解决方案。在数据方面，KubeAI提供基于cvat的标注工具，与数据处理及模型训练流程打通，助力线上模型快速迭代；提供任务/Pipeline编排功能，对接ODPS/NAS/CPFS/OSS数据源，为用户提供一站式AI工作站。平台自研推理引擎助力业务在提高模型服务性能的同时还能控制成本；自研训练引擎提高了模型训练任

推理实践 xff0c xff xff0 人工智能机器学习云原生

【发布】ChatGLM2-6B：性能大幅提升，8-32k上下文，推理提速42%

目录前言CEval榜单ChatGLM2-6B模型性能升级评测结果推理性能示例对比

上下文提速 margin-left E6 margin 人工智能大模型

onnxruntime推理时切换CPU/GPU以及修改onnx输入输出为动态

前言onnx模型作为中间模型，相较于pytorch直接推理，是有加速度效果的，且推理代码简单，不需要load各种网络。最近某些项目因为显存不够，onnxruntime推理时切换CPU/GPU，实现某些模型在CPU上推理，某些在GPU上推理。查了一些别人的文章发现很多人都说onnxruntime推理没法像pytorch那样指定GPU,CPU,只能卸载一个GPU用CPU，卸载CPU用GPU。个人感觉不应该是这样的，点进去源码一看，明明有配置CPU,GPU的参数，而且很简单。这里把自己踩得一些坑给记录一些，分享给有需要的人。onnxruntimeCPU/GPU切换点进去源码之后看到有CUDAExec

onnxruntime 推理 xff0c xff0 xff 深度学习人工智能 python

AI推理实践丨多路极致性能目标检测最佳实践设计解密

摘要：基于CANN的多路极致性能目标检测最佳实践设计解密。本文分享自华为云社区《基于CANN的AI推理最佳实践丨多路极致性能目标检测应用设计解密》，作者：昇腾CANN。当前人工智能领域，最热门的无疑是以ChatGPT为代表的各种“新贵”大模型，它们高高在上，让你无法触及。但在人们的日常生活中，实际应用需求最大的还是以Yolo模型为代表的目标检测“豪强”，它们每天都在以各种方式落地、应用于我们日常生活的方方面面。目标检测是计算机视觉领域的一项关键技术，它的任务是找出图像中所有感兴趣的目标，确定它们的类别和位置。随着人工智能潜移默化地渗入人们的生活中，各行各业竞相通过引入目标检测等技术打开市场空间

多路实践 data data-pid 推理人工智能

Yolov7如期而至，奉上ONNXRuntime的推理部署流程(CPU/GPU)

一、V7效果真的的v587，识别率和速度都有了极大的提升，这里先放最新鲜的github链接：https://github.com/WongKinYiu/yolov7二、v7的训练我这里就不做过多的赘述了，这里主要是进行讲解怎么把.pt文件转为onnx和后续的推理问题： 2.1首先是pip的版本非常重要，博主亲自测试了，发现确实只有对应版本，ONNX才能成功，以至于后续的onnxruntime才能正常的ReadLoad~~pipinstallonnx==1.12.0pipinstallonnx-simplifier==0.4.0pipinstallcoloredlogs==15.0.1pipin

如期而至如期 39 61 xff python pytorch 深度学习计算机视觉

stable diffusion推理过程代码梳理

最近在看stablediffusion，想梳理一下代码流程，以便之后查阅从txt2img.py开始看1.首先是对文本进行编码（1）调用的是 stable-diffusion/ldm/models/diffusion/ddpm.py的get_learned_conditioning函数（2）第555行表示使用CLIP的文本编码器对输入的文本进行编码，调用的是stable-diffusion/ldm/modules/encoders/modules.py中的FrozenCLIPEmbedder类 2.进行采样操作（1）调用plms中的采样操作，在stable-diffusion/ldm/mode

梳理推理 img img-blog csdnimg stable diffusion

安卓手机上跑15亿参数大模型，12秒不到就推理完了

早晚会有这一天，但它还是比想象来得早了一些：大模型在手机上运行的预言被实现了。图片上个月的计算机视觉学术顶会CVPR上，生成式AI成了重要方向，高通会议中展示了一把未来有望成为「主流」的AI应用：用手机跑大模型AI画图。CVPR是AI领域最负盛名的重要会议，我们曾在其中见证过人工智能的几次重要突破，今年在获奖和入围的论文中，既有通用大模型，也有AI画图的研究，可谓一下进入了生成式AI的新时代。图片在CVPR2023上，高通共有八篇论文被主会议收录，并行的展示覆盖生成式AI、计算机视觉、XR和自动驾驶汽车等领域的理论创新，以及应用方向。在这场最先进技术的碰撞中，有不少令人期待的未来图景。15亿大

安卓推理高通 span text-align 人工智能新闻 AI 技术

AI模型推理（１）——入门篇

前言本文主要介绍AI模型推理的相关基础概念，为后续云原生模型推理服务的学习做准备。初识模型部署对于深度学习模型来说，模型部署指让训练好的模型在特定环境中运行的过程。相比于常规的软件部署，模型部署会面临更多的难题：１、运行模型所需的环境难以配置。深度学习模型通常是由一些框架编写，比如Pytorch、TensorFlow。可能由于框架规模、依赖环境的限制，这些框架不适合在手机等生产环境安装。２、深度学习模型的结构通常比较庞大，需要大量的算力才能满足实时运行的需求。模型运行的效率需要优化。因为这些难题的存在，模型部署不能靠简单的环境配置与安装完成。经过工业界和学术界数年的探索，模型部署有了一条流行的

mdash 推理模型 xff xff0c 人工智能

【AIGC】ChatGLM2-6B大模型据称推理性能超越Chat4.0

ChatGLM2-6B因为网速问题，可以就近在这里下载modelsChatGLM2-6B是开源中英双语对话模型ChatGLM-6B的第二代版本，在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上，ChatGLM2-6B引入了如下新特性：更强大的性能：基于ChatGLM初代模型的开发经验，我们全面升级了ChatGLM2-6B的基座模型。ChatGLM2-6B使用了GLM的混合目标函数，经过了1.4T中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B在MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据

据称推理 xff xff0c 模型 AIGC

使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理

前几天，Meta发布了LIMA大模型，在LLaMA-65B的基础上，无需使用RLHF，只用了1000个精心准备的样本数据进行微调，就达到了和GPT-4相媲美的程度。这激发了我探索LLaMA65B大模型的兴趣。之前的一系列大模型相关文章都是在LLaMA7B/13B模型参数上面进行微调，文本使用LoRA技术对LLaMA30B/65B大模型进行微调。相关代码放置在GitHub上面：llm-action。环境准备基础环境配置如下：操作系统:CentOS7CPUs:单个节点具有1TB内存的IntelCPU，物理CPU个数为64，每颗CPU核数为16GPUs:8卡A80080GBGPUsPython:3.

微调推理 span hljs-string class llama python 开发语言

24 25 262728 29 30