草庐IT

ChatGLM3-6B

全部标签

中英双语大模型ChatGLM论文阅读笔记

论文传送门:[1]GLM:GeneralLanguageModelPretrainingwithAutoregressiveBlankInfilling[2]Glm-130b:Anopenbilingualpre-trainedmodelGithub链接:THUDM/ChatGLM-6B目录笔记AbstractIntroductionThedesignchoicesofGLM-130BThetrainingstabilityofGLM-130B框架总结1.模型架构2.预训练设置3.训练稳定性4.并行策略和模型配置5.量化和推理优化6.结果分析7.相关工作8.结论和经验教训9.伦理评估10.可复

聊聊ChatGLM中P-tuning v2的应用

论文PDF地址:https://arxiv.org/pdf/2110.07602.pdf转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/P-Tuningv2摘录自第三部分桔色块指代可训练的promptembedding;蓝色块是由固定(冻结)的预训练语言模型存储或计算的embedding。DeepPromptTuningcontinuousprompts(连续提示)仅仅能够插入到inputembedding序列层。如此,有两个问题:首先由于序列长度的约束限制,可调参数的数量有限。其次,输入的embedding对模型预测有间接的影响。为了解决这些问题

聊聊ChatGLM中P-tuning v2的应用

论文PDF地址:https://arxiv.org/pdf/2110.07602.pdf转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/P-Tuningv2摘录自第三部分桔色块指代可训练的promptembedding;蓝色块是由固定(冻结)的预训练语言模型存储或计算的embedding。DeepPromptTuningcontinuousprompts(连续提示)仅仅能够插入到inputembedding序列层。如此,有两个问题:首先由于序列长度的约束限制,可调参数的数量有限。其次,输入的embedding对模型预测有间接的影响。为了解决这些问题

聊聊ChatGLM-6B源码分析(二)

基于ChatGLM-6B第一版,要注意还有ChatGLM2-6B以及ChatGLM3-6B转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/ChatGLMPreTrainedModel官方的描述是处理权重初始化的抽象类,以及下载和加载预训练模型的接口。掩码如下是GLM模型的掩码结构,在此抽象类中,由get_masks函数处理#转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/defget_masks(input_ids,device):batch_size,seq_length=input_ids.shap

聊聊ChatGLM-6B源码分析(二)

基于ChatGLM-6B第一版,要注意还有ChatGLM2-6B以及ChatGLM3-6B转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/ChatGLMPreTrainedModel官方的描述是处理权重初始化的抽象类,以及下载和加载预训练模型的接口。掩码如下是GLM模型的掩码结构,在此抽象类中,由get_masks函数处理#转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/defget_masks(input_ids,device):batch_size,seq_length=input_ids.shap

ModuleNotFoundError: No module named ‘transformers_modules.chatglm-6b_v1‘的解决方案

  大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。  本文主要介绍了ModuleNotFoundError:Nomodulenamed'transformers_modules.chatglm-6b_v1’的解决方案,希望能对使用huggingfacetransformers的同学们有所帮助。文章目录1.问题描述2.解决方案1.问题描述  今天下载了ChatGLM-6Bv1.1版本的checkpoint

聊聊 从源码来看ChatGLM-6B的模型结构

基于ChatGLM-6B第一版,要注意还有ChatGLM2-6B以及ChatGLM3-6B概述ChatGLM是transformer架构的神经网络模型,因此从transformer结构入手,分析其源码结构。transformer结构:转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/位置编码ChatGLM-6B的位置编码采用的旋转位置编码(RoPB)实现。其源码:classRotaryEmbedding(torch.nn.Module):def__init__(self,dim,base=10000,precision=torch.half,lear

聊聊 从源码来看ChatGLM-6B的模型结构

基于ChatGLM-6B第一版,要注意还有ChatGLM2-6B以及ChatGLM3-6B概述ChatGLM是transformer架构的神经网络模型,因此从transformer结构入手,分析其源码结构。transformer结构:转载请备注出处:https://www.cnblogs.com/zhiyong-ITNote/位置编码ChatGLM-6B的位置编码采用的旋转位置编码(RoPB)实现。其源码:classRotaryEmbedding(torch.nn.Module):def__init__(self,dim,base=10000,precision=torch.half,lear

聊聊ChatGLM6B的微调脚本及与Huggingface的关联

本文首先分析微调脚本trainer.sh的内容,再剖析ChatGLM是如何与Huggingface平台对接,实现transformers库的API直接调用ChatGLM模型,最后定位到了ChatGLM模型的源码文件。脚本分析微调脚本:PRE_SEQ_LEN=128LR=2e-2CUDA_VISIBLE_DEVICES=0python3main.py\--do_train\--train_fileAdvertiseGen/train.json\--validation_fileAdvertiseGen/dev.json\--prompt_columncontent\--response_colu