草庐IT

Efficient-LLMs-Survey

全部标签

NLP | 基于LLMs的文本分类任务

比赛链接:讯飞开放平台来源:DataWhale AI夏令营3(NLP) Roberta-base(BERT的改进)①Roberta在预训练的阶段中没有对下一句话进行预测(NSP)②采用了动态掩码③使用字符级和词级别表征的混合文本编码。论文:https://arxiv.org/pdf/1907.11692.pdf DataWhaleTopline的改进:  特征1:平均池化MeanPooling(768维)->全连接层fc(128维)  特征2:末隐藏层Last_hidden(768维)->全连接层fc(128维) 运行方式:阿里云机器学习平台PAI-交互式建模DSW镜像选择:pytorch:1

Quivr 基于GPT和开源LLMs构建本地知识库 (更新篇)

一、前言自从大模型被炒的越来越火之后,似乎国内涌现出很多希望基于大模型构建本地知识库的需求,大概在5月底的时候,当时Quivr发布了第一个0.0.1版本,第一个版本仅仅只是使用LangChain技术结合OpenAI的GPT模型实现了一个最基本的架子,功能并不够完善,但可以研究研究思路,当时Quivr通过借助于GPT的模型能力,选择Supabase构建向量数据库来实现个人知识库还算是一个不错的选择,自此一直有在关注Quivr的进展,基本上Quivr的更新频率还是比较高的,5月底写了一篇关于如何在本地基于Quivr构建知识库的文章之后,陆陆续续基本上都有一些朋友私聊询问有关Quivr构建的一些问题

LangChain与大型语言模型(LLMs)应用基础教程:神奇的Agent

 LangChain是大型语言模型(LLM)的应用框架,LangChain可以直接与OpenAI的text-davinci-003、gpt-3.5-turbo模型以及HuggingFace的各种开源语言模如Google的flan-t5等模型集成。通过使用LangChain可以开发出更为强大和高效的LLM的各种应用。今天我们就来实现一个神奇的功能,如何你是一个不会编程的小白,那么只要你借助LangChain和ChatGPT,你也能成为一个优秀的数据分析师和预测专家。我们要实现的功能是,让LangChain集成Openai的语言模型如"text-davinci-003",然后创建一个代理(agen

LLMs:LLaMA Efficient Tuning(一款可高效微调【全参数/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【预训练+指令监督微调+

LLMs:LLaMAEfficientTuning(一款可高效微调【全参数/LoRA/QLoRA】主流大模型【ChatGLM2/LLaMA2/Baichuan等】的高效工具【预训练+指令监督微调+奖励模型训练+PPO训练+DPO训练】)的简介、安装、使用方法之详细攻略目录相关文章LLMs之ChatGLM:ChatGLMEfficientTuning(一款高效微调ChatGLM-6B/ChatGLM2-6B的工具【LoRA/P-TuningV2/FreezeTuning/全量微调】)的简介、安装、使用方法之详细攻略LLMs:LLaMAEfficientTuning(一款可高效微调【全参数/LoR

【论文阅读】【剪枝】Learning Efficient Convolutional Networks through Network Slimming

摘要             深度卷积神经网络(CNN)在许多实际应用中的部署在很大程度上受到其高计算成本的阻碍。在本文中,我们提出了一种新的神经网络学习方案,以同时1)减小模型大小;2)减少运行时内存占用;以及3)在不损害精度的情况下减少计算操作的数量。这是通过以简单但有效的方式在网络中实施通道级稀疏性来实现的。与许多现有方法不同,所提出的方法直接适用于现代CNN架构,为训练过程引入了最小开销,并且不需要用于生成模型的专用软件/硬件加速器。我们称我们的方法为网络瘦身,它将宽网络和大网络作为输入模型,但在训练过程中,不重要的通道会被自动识别并在之后进行修剪,从而生成具有相当精度的瘦而紧凑的模型

《论文阅读13》Efficient Urban-scale Point Clouds Segmentationwith BEV Projection

一、论文研究领域:城市级3D语义分割论文:EfficientUrban-scalePointCloudsSegmentationwithBEVProjection清华大学,新疆大学2021.9.19论文github论文链接二、论文概要2.1主要思路提出了城市级3D语义分割新的方法,将3D点云语义分割任务转移到2D鸟瞰图分割问题。分为以下三步:3D到BEV投影、稀疏BEV图像分割和BEV到3D重新映射。注:BEV:Bird'sEyeViewBEV投影是指鸟瞰视角(Bird'sEyeView,简称BEV)的一种从上方观看对象或场景的视角,就像鸟在空中俯视地面一样。在自动驾驶和机器人领域,通过传感器

生成式AI和大语言模型 Generative AI & LLMs

在“使用大型语言模型(LLMs)的生成性AI”中,您将学习生成性AI的基本工作原理,以及如何在实际应用中部署它。通过参加这门课程,您将学会:深入了解生成性AI,描述基于LLM的典型生成性AI生命周期中的关键步骤,从数据收集和模型选择,到性能评估和部署详细描述为LLMs提供动力的变换器架构,它们是如何被训练的,以及微调如何使LLMs能够适应各种特定的用例使用经验性的缩放法则来优化模型的目标函数,跨数据集大小、计算预算和推断要求应用最先进的训练、调整、推断、工具和部署方法,以在项目的特定约束条件下最大化模型的性能在听取行业研究人员和从业者的故事后,讨论生成性AI为企业带来的挑战和机会对于那些对LL

A Survey of Embodied AI: From Simulators to Research Tasks 论文阅读

论文信息:题目:ASurveyofEmbodiedAI:FromSimulatorstoResearchTasks作者:JiafeiDuan,SamsonYu来源:arXiv时间:2022Abstract通过评估当前的九个具体人工智能模拟器与我们提出的七个功能,本文旨在了解模拟器在具体人工智能研究中的使用及其局限性。本文调查了实体人工智能的三个主要研究任务——视觉探索、视觉导航和实体问答(QA),涵盖了最先进的方法、评估指标和数据集。最后,通过对该领域的调查所揭示的新见解,本文将为任务选择模拟器提供建议,并对该领域的未来方向提出建议。Introduction本文涵盖了过去四年中开发的以下九个具

企业领导者可以使用LLMs创造新机会的五种方式

一般而言,AIGC指的是一类ML技术,可以创建与人类创造的内容非常相似的图像、音乐和文本等内容。另一方面,LLMs是具有数十亿个参数的神经网络,这些参数已经在大量文本数据上进行了训练,这使它们能够理解、处理和生成类似人类的语言。总而言之,这些技术提供了一系列不同的应用,这些应用具有重塑不同行业的潜力,并提高了人与机器之间交互的效能。通过探索这些应用,企业领导者和决策者可以获得宝贵的灵感,推动业务加速增长,并通过快速原型制作实现明显改善的业务成果。AIGC的额外优势是,这些应用程序中的大多数只需要最低限度的专业知识,不需要进一步的模型培训。快速声明:人们通常倾向于将第二代AI与ChatGPT联系

LLMs之LLaMA2:基于text-generation-webui工具来本地部署并对LLaMA2模型实现推理执行对话聊天问答任务(一键安装tg webui+手动下载模型+启动WebUI服务)、同时

LLMs之LLaMA2:基于text-generation-webui工具来本地部署并对LLaMA2模型实现推理执行对话聊天问答任务(一键安装tg webui+手动下载模型+启动WebUI服务)、同时微调LLaMA2模型(采用Conda环境安装tg webui+PyTorch→CLI/GUI下载模型→启动WebUI服务→GUI式+LoRA微调→加载推理)之图文教程详细攻略目录基于TextgenerationwebUI工具实现对话聊天大模型应用一、本地部署实现推理