TensorRT-LLM_草庐IT

【windows版】TensorRT安装教程

一、参考资料TensorRT深度学习模型剪枝、量化和TensorRT推理深度学习模型PyTorch训练并转ONNX与TensorRT部署TensorRT(1)-介绍-使用-安装TensorRT模型量化技术（入门级理解，不涉及复杂公式和深入的原理）二、相关介绍1.TensorRT的优化模型推理的时候，每一次的操作都是由GPU启动不同的的CUDA核心来完成的，大量的时间花在CUDA核心启动和读写操作上，造成了内存带宽的瓶颈和GPU资源浪费。TensorRT通过层间融合，横向融合把卷积偏置激活合并成一个结构，并且只占用一个CUDA核心，纵向融合把结构相同、权值不同的层合并成一个更宽的层，也是占用一个

阿里云 OpenSearch 重磅推出 LLM 问答式搜索产品，助力企业高效构建对话式搜索服务

1.企业专属问答搜索1.1.世界知识vs企业专属知识ChatGPT、通义千问正在引领搜索技术变革，其表现出的“什么都懂，什么都能聊”关键是依赖于底座大语言模型（LargeLanguageModel,LLM）中压缩的世界知识。但无论是多强大的LLM，能压缩的知识量仍然是有限的。下图中的问题是关于阿里巴巴内部的技术产品，属于企业专属知识，就算是强大的ChatGPT模型给出的答案也是完全错误不相关的。针对这个问题，OpenAI提出了chatgpt-retrieval-plugin、WebGPT，开源社区提出了DocsGPT、ChatPDF、基于langchain的检索增强chatbot等等一系列解决

搜索阿里 xff0c xff xff0 阿里云人工智能云计算机器学习

解密Prompt系列13. LLM Agent-指令微调方案: Toolformer & Gorilla

上一章我们介绍了基于Prompt范式的工具调用方案，这一章介绍基于模型微调，支持任意多工具组合调用，复杂调用的方案。多工具调用核心需要解决3个问题，在哪个位置进行工具调用(where),从众多工具中选择哪一个(Which),工具的输入是什么(What)。Where+Which+What，我称之为3W原则，3H它兄弟哈哈哈哈~其实如何教大模型使用工具，和教人类使用工具没啥区别。就像上周末我想给我妈买的可以防弹，超重的岩板餐桌按个滑轮需要使用电钻，那我学习使用电钻的途径无非有三种基于历史经验：我之前都是手动的没用过电动的，我凭借自信直接上手结果拧歪了......对应到LLM其实就是本章要提到的工具

微调解密调用工具样本大模型

GPT-4只是AGI的火花？LLM终将退场，世界模型才是未来

在人类的认知之中，似乎早已习惯将通用人工智能（AGI）设定为人工智能的终极形态和发展的最终目标。图片虽然OpenAI早已把公司的目标设定为实现AGI。但对于什么是AGI，OpenAICEOSamAltman自己都没法给出具体的定义。对于AGI何时能够到来，也只存在于大佬们抛出的一个个近未来的叙事场景之中，似乎唾手可得，但又遥遥无期。今天，在国外的知名的播客网站Substack上，一位名为ValentinoZocca的人工智能行业资深人士，站在人类历史的叙事立场上，写了一篇雄文，全面而深刻地讲述了人类和通用人工智能之间的距离。图片文章中将AGI大致定义为一个「能够理解世界的模型」，而不仅仅是「描

退场终将 span text-align justify 人工智能 GPT-4 AGI 模型

大语言模型LLM技术赋能软件项目管理和质量保障︱微软中国高级研发经理步绍鹏

微软中国高级研发经理步绍鹏先生受邀为由PMO评论主办的2023第十二届中国PMO大会演讲嘉宾，演讲议题：大语言模型LLM技术赋能软件项目管理和质量保障。大会将于8月12-13日在北京举办，敬请关注！议题内容简要：本次分享将从如下几个要点展开，探索LLM技术赋能下的软件项目管理新实践：1、软件项目管理发展现状；2、软件项目管理与质量保障在微软；3、软件项目管理和质量保障现状与挑战；4、大语言模型LLM技术和AzureOpenAI服务能力简介；5、大语言模型技术在项目管理方面的应用探索。具体内容包括：1.软件项目管理现状本部分将讲述软件项目管理的现状概述，综述近年来的软件开发管理新趋势、新发展。2

微软中国项目 xff 项目管理语言模型人工智能 PMO大会 PMO 自然语言处理 microsoft

全球&中国 AI 大模型 ( LLM ) 列表

文章目录AI大模型简介中国大模型列表大模型列表国外大模型开源大模型基础大模型非基础大模型模型架构AI大模型简介AI大模型（LargeLanguageModel，简称LLM）是一种人工智能技术，通过深度学习算法训练大规模数据集来生成自然语言文本（如文章、对话等）。该技术的应用范围非常广泛，包括自然语言处理、机器翻译、文本生成、问答系统等。目前，AI大模型已成为人工智能领域的一个热点，引起了各界的广泛关注。AI大模型的基础是神经网络技术。在传统的神经网络中，每个神经元都连接着前一层的所有神经元，并且每个神经元都有自己的权重和偏置值。通过这种方式，神经网络可以从输入层传递到输出层，实现对复杂模式的学

中国 amp 模型神经 li 人工智能自然语言处理开发语言编程实践语言模型

导出LLaMA ChatGlm2等LLM模型为onnx

通过onnx模型可以在支持onnx推理的推理引擎上进行推理，从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖，获得更好的性能等优势。这篇博客（大模型LLaMa及周边项目（二）-知乎）进行了llama导出onnx的开创性的工作，但是依赖于侵入式修改transformers库，比较不方便。这里本人实现了避免侵入式修改transformers库导出LLM为ONNX方法，代码库为:https://github.com/luchangli03/export_llama_to_onnx导出的LLM进行onnxsim优化：一种大于2GBONNX模型onnxsim优化方法_Luc

导出 ChatGlm2 模型 xff llama 人工智能 onnx

修改几行代码就让LLM应用提速100多倍！这个团队两周搭建ChatGPT缓存层，曾被老黄OpenAI点赞

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。ChatGPT爆火，为何大模型却依然没有得到广泛的应用？原因无它，受制于性能和成本。最近，有这样一个项目引发业内关注和讨论——GPTCache（https://github.com/zilliztech/GPTCache）。它使用向量数据库技术为各种LLM应用提供一层语义缓存，能够存储LLM响应，从而显著减少检索数据所需的时间、降低API调用开销、提升应用可扩展性。简单来说，有了GPTCache，受制于性能优化与成本的LLM应用，可以挣脱这些束缚，真正做到省钱、省时、省力了。AIGC人狂喜！而背后的操盘手正是向量数据库

老黄提速 data-id js_darkmode data 人工智能新闻 AI 应用

修改几行代码就让LLM应用提速100多倍！这个团队两周搭建ChatGPT缓存层，曾被老黄OpenAI点赞

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。ChatGPT爆火，为何大模型却依然没有得到广泛的应用？原因无它，受制于性能和成本。最近，有这样一个项目引发业内关注和讨论——GPTCache（https://github.com/zilliztech/GPTCache）。它使用向量数据库技术为各种LLM应用提供一层语义缓存，能够存储LLM响应，从而显著减少检索数据所需的时间、降低API调用开销、提升应用可扩展性。简单来说，有了GPTCache，受制于性能优化与成本的LLM应用，可以挣脱这些束缚，真正做到省钱、省时、省力了。AIGC人狂喜！而背后的操盘手正是向量数据库

老黄提速 data-id js_darkmode data 人工智能新闻 AI 应用

不用LLM，遗传编程可控Python代码！谷歌DeepMind等提出全新ARZ框架

谷歌等团队发布了遗传编程最新成果——AutoRobotics-Zero（ARZ）。最新论文已被IROS2023接收。论文地址：https://arxiv.org/pdf/2307.16890.pdf这是一种使用AutoML-Zero的搜索方法，能够构建紧凑、可解释的机器人策略，可以快速适应环境的剧烈变化。即使在随机选择的一条腿折断后，ARZ策略能够控制步态，让其继续行走。而这一挑战任务，在2个流行的神经网络基线MLP+LSTM中，取得了失败结果。甚至，ARZ使用的参数和FLOPS比基线少得多。英伟达高级研究科学家JimFan表示，令人耳目一新的机器人技术！无需LLM，甚至无需神经网络：只需使用

可控遗传 span text-align style 人工智能新闻谷歌研究