langchain-ChatGLM

【ChatGPT】预训练模型微调及其应用（ChatGLM-6B、duckduckgo_search、GPT在科研的应用等）

noteinstructGPT（基于提示学习的系列模型）——>GPT3.5（大规模预训练语言模型）——>ChatGPT模型（高质量数据标注+反馈学习）。chatGPT三大技术：情景学习、思维链、自然指令学习。GPT4飞跃式提升：多模态、输入字符数量、推理能力、文本创造，如poem、解释图片含义、图表计算等，2022年8月完成训练。论文：https://cdn.openai.com/papers/gpt-4.pdfChatGPTPlus：集成GPT-4的ChatGPT升级版，https://chat.openai.com/chat可以利用chatGPT获取更高质量数据文章目录note一、预训练模

（一）AI本地知识库问答（可运行）：LangChain+Chroma向量数据库+OpenAi大模型

调研阶段，有什么不好的地方欢迎大家帮我指认，谢谢！一、项目结构总览（AiDemo，先上代码，后续再解释）只需要看config目录下的config.py，data目录下的txt知识库文件，db向量数据库文件在持久化部署后会自动生成，route下的app.py，scripts目录下的Chroma向量库持久化部署.py这几个就可以，scripts目录下的考勤问答.py和test目录下都是单独的自己测试的小代码，可以不用关注二、安装C++编译环境因为运行需要本地有C++的环境，所以需要安装C++生成工具，勾选这一个就可以地址：MicrosoftC++生成工具-VisualStudio三、代码confi

安装LLaMA-Factory微调chatglm3，修改自我认知

安装gitclonehttps://github.com/hiyouga/LLaMA-Factory.gitcondacreate-nllama_factorypython=3.10condaactivatellama_factorycdLLaMA-Factorypipinstall-rrequirements.txt之后运行单卡训练，CUDA_VISIBLE_DEVICES=0pythonsrc/train_web.py，按如下配置demo_tran.shCUDA_VISIBLE_DEVICES=0pythonsrc/train_bash.py\--stagesft\--model_name

类ChatGPT逐行代码解读(1/2)：从零起步实现Transformer、ChatGLM-6B

前言最近一直在做类ChatGPT项目的部署微调，关注比较多的是两个：一个LLaMA，一个ChatGLM，会发现有不少模型是基于这两个模型去做微调的，说到微调，那具体怎么微调呢，因此又详细了解了一下微调代码，发现微调LLM时一般都会用到Huggingface实现的Transformers库的Trainer类从而发现，如果大家想从零复现ChatGPT，便得从实现Transformer开始，因此便开启了本文：如何从零起步实现Transformer、ChatGLM(至于LLaMA已在之前的博客里解读过)，主要分为两个大部分按照transformer的每一步的原理逐步逐行从零实现，先编码器后解码器，特别

LLaMA-Factory使用V100微调ChatGLM2报错 RuntimeError: “addmm_impl_cpu_“ not implemented for ‘Half‘

微调命令CUDA_VISIBLE_DEVICES=0python/aaa/LLaMA-Factory/src/train_bash.py\--stagesft\--model_name_or_path/aaa/LLaMA-Factory/models/chatglm2-6b\--do_train\--datasetbbbccc\--templatechatglm2\--finetuning_typelora\--lora_targetquery_key_value\--output_diroutput/dddeee/\--overwrite_cache\--per_device_train_b

ChatGLM2-6B模型的微调

概述GLM、ChatGLM的相关基础知识说明：GLM模型底层还是基于Transformer，因此其设计、优化都是围绕Transformer的各个组件的。从注意力层的掩码、位置编码等方面优化与设计。ChatGLM3/ChatGLM2的源码中，比如finetune、trainer等代码，其实是copy自HuggingFace，而且其使用流程与调用机制，与HuggingFace的开发流程是一致的。对GLM-130B，ChatGLM千亿模型，ChatGLM-6B的区分不够清楚，这里给出说明：GLM-130B：于2022年8月由清华智谱AI开源放出。该大语言模型基于之前提出的GLM(GeneralLan

ChatGLM3：打造更智能、更安全的代码解释器和工具使用体验

ChatGLM3是由智谱AI训练的第三代大型语言模型，它不仅能理解和生成人类语言，还能执行代码、调用工具，并以markdown格式进行响应。为了提高用户体验，同时避免用户输入的注入攻击，ChatGLM3采用了全新的对话格式。下载智谱清言体验ChatGLM3最新的能力。ChatGLM3对话格式ChatGLM3对话的格式由若干对话组成，其中每个对话包含对话头和内容。对话头占完整的一行，格式为`{metadata}`，其中``部分使用specialtoken表示，无法从文本形式被tokenizer编码以防止注入。metadata部分采用纯文本表示，为可选内容。对话格式的角色包括：-``：系统信息，设

Unrecognized configuration class ＜class ‘transformers_modules.chatglm2-6b.configuration_chatglm.解决方案

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了UnrecognizedconfigurationclassforthiskindofAutoModel:AutoModelForCausalLM.解决方案，希望能对使用chatglm的同学们有所帮助。文章目录1.问题描述2.解决方案1

【开源】给ChatGLM写个，Java对接的SDK

作者：小傅哥-百度搜小傅哥bugstack博客：bugstack.cn沉淀、分享、成长，让自己和他人都能有所收获！😄大家好，我是技术UP主小傅哥。清华大学计算机系的超大规模训练模型ChatGLM-130B使用效果非常牛，所以我也想把这样的Ai能力接入到自己的应用中或者做一些IntelliJIDEAPlugin使用。但经过了一晚上的折腾，我决定给它写个对接的SDK开源出来！——🤔智谱Ai不是已经有了一个SDK吗？为啥还要写呢？那你写多少了？在很早之前就关注了智谱Ai(ChatGLM)，也看到官网有一个Java对接的SDK方式。但从前几天开始正式对接发现，这SDK是8月份提交的，10个commit

LangChain 26: 回调函数callbacks打印prompt verbose调用

LangChain系列文章LangChain实现给动物取名字，LangChain2模块化prompttemplate并用streamlit生成网站实现给动物取名字LangChain3使用Agent访问Wikipedia和llm-math计算狗的平均年龄LangChain4用向量数据库Faiss存储，读取YouTube的视频文本搜索IndexesforinformationretrieveLangChain5易速鲜花内部问答系统LangChain6根据图片生成推广文案HuggingFace中的image-caption模型LangChain7文本模型TextLangChain和聊天模型ChatL