草庐IT

Chinese-LLaMA2

全部标签

baichuan-7B-chat微调报错及解决记录 使用的仓库:LLaMA-Factory 2023年11月27日

我所使用的代码仓库是LLaMA-Factoryhiyouga/LLaMA-Factory:Easy-to-useLLMfine-tuningframework(LLaMA,BLOOM,Mistral,Baichuan,Qwen,ChatGLM)(github.com)https://github.com/hiyouga/LLaMA-Factory/tree/mainA.解决问题推荐两个查询网址,在issue中查询:Issues·hiyouga/LLaMA-Factory(github.com)Issues·hiyouga/LLaMA-Factory(github.com)和Issues·bai

[论文笔记] 大模型gpu机器推理测速踩坑 (llama/gpt类)

cpu没报错,换gpu就报错。以下是一些踩坑:坑1:要指定gpu,可以在importtorch之前指定gpu。model=LlamaForCausalLM.from_pretrained(model_path,trust_remote_code=True).to(device)报错: RuntimeError('Expectedalltensorstobeonthesamedevice,butfoundatleasttwodevices,cuda:6andcuda:0!(whencheckingargumentforargumentindexinmethodwrapper_CUDA__inde

零一万物回应「抄袭 LLaMA」;京东原副总裁试用可穿戴人工喉丨 RTE 开发者日报 Vol.85

开发者朋友们大家好:这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(RealTimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。本期编辑:@Asui,@CY01有话题的新闻1、零一万物回应「抄袭LLaMA」:尊重开源社区反馈,将更新代码HuggingFace开发者ehartford质疑李开复旗下AI企业零一万物开源大模型抄袭了Meta的LLaMA架构,只对两个张量名称进行修改。对此,零一万物表示:GPT是一个业内公认的成熟

matplotlib显示中文字体(mac os) matplotlib display Chinese in mac os

目录 一、总结:四种方法如下        method1(全局设置)        method2(全局设置)        method3(局部设置)        method4(局部设置)二、查看matplotlib中的字体三、 查看电脑的中文字体及导入到matplotlib1.打开应用字体册2.点击左侧的中文字体3.右边显示了很多中文字体,右击字体,选择在访达中访问,就可以查看字体的位置及其名称4.使用字体三、4种方法具体代码示例方法一方法二方法三方法四 一、总结:四种方法如下        method1(全局设置)importmatplotlib.pyplotasplt#后面的方

LLama Factory 安装部署实操记录(二)

1.项目地址GitHub-hiyouga/LLaMA-Factory:Easy-to-useLLMfine-tuningframework(LLaMA,BLOOM,Mistral,Baichuan,Qwen,ChatGLM)Easy-to-useLLMfine-tuningframework(LLaMA,BLOOM,Mistral,Baichuan,Qwen,ChatGLM)-GitHub-hiyouga/LLaMA-Factory:Easy-to-useLLMfine-tuningframework(LLaMA,BLOOM,Mistral,Baichuan,Qwen,ChatGLM)http

LLaMA模型之中文词表的蜕变

在目前的开源模型中,LLaMA模型无疑是一颗闪亮的⭐️,但是相对于ChatGLM、BaiChuan等国产大模型,其对于中文的支持能力不是很理想。原版LLaMA模型的词表大小是32K,中文所占token是几百个左右,这将会导致中文的编解码效率低。在将LLaMA系列模型用于中文语言时需要进行中文词表扩充,基于sentencepiece工具训练,产生新的词表,然后与原始词表合并得到一个新词表。本文将LLaMA模型中文词表扩充分为以下步骤:训练数据准备、词表训练、词表合并、词表测试。训练数据准备这里使用MedicalGPT中的天龙八部小说作为训练文本。数据是txt文件,一行文本作为一条数据。词表训练代

基于llama-index对embedding模型进行微调

QA对话目前是大语言模型的一大应用场景,在QA对话中,由于大语言模型信息的滞后性以及不包含业务知识的特点,我们经常需要外挂知识库来协助大模型解决一些问题。在外挂知识库的过程中,embedding模型的召回效果直接影响到大模型的回答效果,因此,在许多场景下,我们都需要微调我们的embedding模型来提高我们的召回效果。下面,我们就基于llama-index对BAAI/bge-base-zh-v1.5模型进行微调,关于该模型的介绍,可以参考https://huggingface.co/BAAI/bge-base-zh-v1.5。平台介绍对embedding模型进行微调的过程中需要使用GPU加速训

llama.cpp部署(windows)

一、下载源码和模型 下载源码和模型#下载源码gitclonehttps://github.com/ggerganov/llama.cpp.git#下载llama-7b模型gitclonehttps://www.modelscope.cn/skyline2006/llama-7b.git 查看cmake版本:D:\pyworkspace\llama_cpp\llama.cpp\build>cmake--versioncmakeversion3.22.0-rc2CMakesuitemaintainedandsupportedbyKitware(kitware.com/cmake). 二、开始bui

【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting

Lag-Llama:TowardsFoundationModelsforTimeSeriesForecasting摘要本文提出Lag-Llama,在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律(smoothlybrokenpower-laws)。介绍目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数据上进行训练,展现出了极强的泛化能力。本文训练了一个Transformer模型,使用大量时序数据进行训练并在未见过的数据集上进行测试。文章在Monash时序仓库上训练了Lag-Llama。本文贡献:提

LLaMa、Qwen、ChatGLM、ChatGLM2的区别

LLaMa、Qwen、ChatGLM、ChatGLM2的区别以下比较的前提是首先和BERT(transfomer)的对比感谢帮忙给我githubrepository的star,更多最新模型长期更新:https://github.com/zysNLP/quickllmLLaMa:去掉biasLayNorm方式:RMSnorm:https://zhuanlan.zhihu.com/p/650231190#torch自带LayerNormifself.norm_mode=='torch_buildin': returnF.layer_norm(hidden_states,self.normalize