LLM-Vicuna_草庐IT

LLM-Blender：大语言模型也可以进行集成学习

最近在看arxiv的时候发现了一个有意思的框架：LLM-Blender，它可以使用Ensemble的方法来对大语言模型进行集成。官方介绍如下：LLM-Blender是一个集成框架，可以通过利用多个开源大型语言模型(llm)的不同优势来获得始终如一的卓越性能。LLM集成我们都知道集成学习是一种机器学习方法，旨在提高预测模型的性能和鲁棒性。它通过将多个不同的学习器（如决策树、神经网络等）结合成一个整体，来取得比单个学习器更好的预测效果。比如最常见的Kaggle比赛中就广泛的使用了这种方法。那么大语言模型有必要进行集成吗论文给出了以下观点：由于数据、架构和超参数的变化，LLM表现出不同的优势和劣势，

LLM-分布式训练工具（一）：DeepSpeed【微软】【大模型分布式训练工具，实现ZeRO并行训练算法】【zero3配置将模型参数切分后分配到不同的显卡中，突破单张显卡容量不足以加载模型参数的限制】

DeepSpeed是微软推出的大规模模型分布式训练的工具，主要实现了ZeRO并行训练算法。原始文档链接：DeepSpeed一、DeepSpeed目前支持的功能Optimizerstatepartitioning(ZeROstage1)Gradientpartitioning(ZeROstage2)Parameterpartitioning(ZeROstage3)CustommixedprecisiontraininghandlingArangeoffastCUDA-extension-basedoptimizersZeRO-OffloadtoCPUandNVMe二、DeepSpeed的使用2.

大模型LLM领域，有哪些可以作为学术研究方向？

清湛人工智能研究院 2023-05-3109:23 发表于江苏编者：本文转载了清华大学计算机系刘知远教授对大模型的一些思索，以飨读者。刘知远CCF高级会员，CCCF前编委。清华大学计算机系副教授、博士生导师。已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文80余篇，GoogleScholar统计引用超过1万次。承担多项国家自然科学基金。曾获中文信息学会青年创新奖，入选国家青年拔尖人才支持计划，智源研究院青年科学家，中国科学青年人才托举工程。正文如下：感觉有责任回答这个问题，恰好在高铁上写下回答。2022年初我做过一个报告题目是《大模型十问》，分享我们认为大模型值得

谷歌创始人正式回归，加入LLM大战！指导Gemini研发，与OpenAI、Meta混战一触即发

已辞职四年的谷歌联合创始人，终于回归了！根据华尔街日报报道，谢尔盖·布林（SergeyBrin）已经重返工作岗位，协助谷歌的AI研究人员建立强大的Gemini系统。图片联合创始人，重返大模型战场最近几个月，身家过亿万的谢尔盖·布林每周三到四天都会到访加州山景城的谷歌办公室，与研究人员一起推动谷歌的下一个大型AI系统。图片在2019年，谢尔盖·布林辞去了谷歌母公司Alphabet的职务后，几乎彻底放权，很少干涉公司业务。但从去年底开始，他开始多次参加谷歌举办的关于AI的会议，频率明显变高。据报道，关于谷歌期待已久的AI模型Gemini，他在和研究人员密切合作，研究AI程序「损失曲线」之类的问题。

【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍！

Llama2发布！Meta刚刚发布了LLaMa2，它是LLaMA的下一代版本，具有商业友好的许可证。🤯😍LLaMA2有3种不同的尺寸：7B、13B和70B。7B&13B使用与LLaMA1相同的架构，并且是商业用途的1对1替代🔥简介🧮7B、13B&70B参数版本🧠70B模型采用分组查询注意力（GQA）🛠聊天模型可以使用工具和插件🚀LLaMA2-CHAT与OpenAIChatGPT效果一样好🤗发布在HuggingFace：https://huggingface.co/meta-llama公告:https://ai.meta.com/llama/论文:https://ai.meta.com/rese

获星1.9k，LLM微调神器Lamini上演速度与激情，免费可用

LLM微调从一件复杂的事情，已经通过不断的技术改进变得易上手起来。这不，免费且迅速的LLM微调已经可以实现了。4月底，斯坦福的一群开发者发布了 Lamini，号称可以为每个开发人员提供从GPT-3带到ChatGPT的超能力。近日，Lamini推出了全新的Alpha公测版，让微调上演「速度与激情」。现在只需十分钟、三至五行代码就能实现微调，更重要的是0费用。目前，4亿参数以内的LLM微调完全免费。这只是一个开始。图片项目地址：https://github.com/lamini-ai/laminiLamini的优势先来一起看看Lamini有哪些优势。图片免费，适用于小型LLM；迅速，10-15分钟

LangChain大型语言模型(LLM)应用开发(六)：Agents

LangChain是一个基于大语言模型（如ChatGPT）用于构建端到端语言模型应用的Python框架。它提供了一套工具、组件和接口，可简化创建由大型语言模型(LLM)和聊天模型提供支持的应用程序的过程。LangChain可以轻松管理与语言模型的交互，将多个组件链接在一起，以便在不同的应用程序中使用。今天我们来学习DeepLearning.AI的在线课程:LangChainforLLMApplicationDevelopment的第六门课：Agents,所谓Agents可以理解为那些可以代替你来完成各种任务的人，即代理人(agent)。agent在执行各种任务的时候可能会用到各种工具，那么今天

试运行llama-7B、vicuna-7b-delta-v1.1和vicuna-7b-v1.3

Chatgpt的出现给NLP领域带来了让人振奋的消息，可以很逼真的模拟人的对话，回答人们提出的问题，不过Chatgpt参数量，规模，训练代价都很昂贵。幸运的是，出现了开源的一些相对小的模型，可以在本地或者云端部署体验，动手体验了下Vicuna-7b，翻译过来是小羊驼」（骆马），拥有70亿参数，据作者实验能达到GPT-4的90%性能。在作者官网发布了三个版本，其中3个月前发布了v1.1，17天前发布了v1.3。官网：lmsys(LargeModelSystemsOrganization)环境：ubuntu18.04九天毕昇8核32G内存，仅有cpu时间：2023年7月5号llama-7Bpyth

给LLM装上知识：从LangChain+LLM的本地知识库问答到LLM与知识图谱的结合

前言过去半年，随着ChatGPT的火爆，直接带火了整个LLM这个方向，然LLM毕竟更多是基于过去的经验数据预训练而来，没法获取最新的知识，以及各企业私有的知识为了获取最新的知识，ChatGPTplus版集成了bing搜索的功能，有的模型则会调用一个定位于“链接各种AI模型、工具的langchain”的bing功能为了处理企业私有的知识，要么基于开源模型微调，要么也可以通过langchain作为一种外挂的内部知识库(类似存在本地的数据库一样)所以越来越多的人开始关注langchain并把它与LLM结合起来应用，更直接推动了数据库、知识图谱与LLM的结合应用本文侧重讲解LLM与langchain/

【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

论文题目：《LLaMA:OpenandEfficientFoundationLanguageModels》论文链接：https://arxiv.org/pdf/2302.13971.pdfgithub链接：https://github.com/facebookresearch/llama/tree/mainhuggingface链接：https://huggingface.co/decapoda-research/llama-7b-hf1模型简介LLaMA是MetaAI发布的包含7B、13B、33B和65B四种参数规模的基础语言模型集合，LLaMA-13B仅以1/10规模的参数在多数的benc