草庐IT

Efficient-LLMs-Survey

全部标签

LLMs之Alpaca:《Alpaca: A Strong, Replicable Instruction-Following Model》翻译与解读

LLMs之Alpaca:《Alpaca:AStrong,ReplicableInstruction-FollowingModel》翻译与解读导读:Alpaca是一个在Meta的LLaMA7B模型基础上微调的Instruction-Following(指令跟随)语言模型。通过使用self-instruct(自我指导)的方法,利用OpenAI的text-davinci-003模型生成了52,000个Instruction-Following演示数据,并使用HuggingFace的训练框架对LLaMA模型进行了微调。通过对Alpaca进行初步评估和交互测试,发现它在单轮Instruction-Fol

《论文阅读》ChatGPT相关技术之思维链(CoT in LLMs)

《论文阅读》ChatGPT相关技术之思维链(CoTinLLMs)2023-3-17组会记录ChatGPT相关技术之思维链(CoTinLLMs)前言语言模型到思维链的提出方向1:Scaling-up方向2:PromptPromptingIn-contextlearningN-shotlearningZero-shotOne-shotFew-shotChainofThought(CoT)Zero-shot-CoTSelf-consistencyCoT问题与

An Efficient Blockchain Consensus Algorithm Based on Post-QuantumThreshold Signature提升区块链效率

AnEfficientBlockchainConsensusAlgorithmBasedonPost-QuantumThresholdSignaturePost-quantumthresholdsignaturescheme一个signature被一组人使用并且有一组有一个manager,组管理员分别生成私钥并安全发送给n个用户,根据私钥生成公钥。n个用户中至少有t个用户可以为一条消息生成一个有效的签名,该签名看起来像n个用户签名的签名。只有群组管理员可以验证签名,从而知道谁在签名threshold签名产生   threshold签名认证 转化成多元线性方程组用高斯消去法或高斯-约当消去法在有

大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

大型语言模型综述,非常详细,格局打开!ASurveyofLargeLanguageModels返回论文和资料目录论文地址项目地址1.导读讲得通俗易懂,且格局拉满!基本覆盖了自ChatGPT以来的AI比较火的事件,还多次提到强人工智能AGI(人工通用智能)。对近几年的大型语言模型(LargeLanguageModels)进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读!!!2.摘要和引言从图灵测试开始讲起,人类一直在探索用机器掌握语言智能的方法。在过去20年,语言模型得到了广泛研究。从统计语言模型到了基于神经网络的语言模型(LSTM等)。最近这些年,通过在大规模语料库(数据集)上对Tr

AIGC:【LLM(二)】——LangChain:由LLMs驱动的应用开发框架

文章目录一.背景介绍二.LangChain简介2.1常见应用场景三.LangChain特点3.1优点3.2不足四.LangChain功能4.1基础功能4.2功能模块4.2.1LLM和Prompts4.2.2Chain4.2.3Agent4.2.4Memory4.2.5Embedding4.2.6Models4.2.7Indexes五.实战案例5.1背景需求5.2数据准备5.3数据处理5.4通过openai的Embeddings训练5.5接入聊天api一.背景介绍在过去几年中,大型语言模型(LLM)席卷了人工智能世界。随着OpenAI的GPT-3在2020年的突破性发布,我们见证了LLM的受欢迎

省显存(内存?)的大语言模型(LLMs)训练/微调/推理方法

即使RTX3090有着24GB的RAM,是除了A100之外显存最大的显卡。但使用一块RTX3090依然无法fp32精度训练最小号的LLaMA-6B。估算模型所需的RAM首先,需要了解如何根据参数量估计模型大致所需的RAM,这在实践中有很重要的参考意义。需要通过估算设置batch_size,设置模型精度,选择微调方法和参数分布方法等。接下来用LLaMA-6B模型为例估算其大致需要的内存。精度对所需内存的影响:fp32精度,一个参数需要32bits,4bytes.fp16精度,一个参数需要16bits,2bytes.int8精度,一个参数需要8bits,1byte.模型需要的RAM大致分三个部分:

【论文导读】 - A Comprehensive Survey on Trustworthy Graph NeuralNetworks(关于可信图神经网络的全面综述) [隐私保护部分]

文章目录论文信息摘要主要内容图神经网络的隐私保护1.隐私攻击的分类1.1GNN的隐私攻击类型。1.2隐私攻击的威胁模型。2.对GNN进行隐私攻击的方法2.1有监督隐私攻击框架2.2成员关系推断攻击2.3重建攻击2.4属性推断攻击2.5模型提取攻击3.图神经网络的隐私保护3.1基于差分隐私的GNN隐私保护3.2基于联邦学习的GNN隐私保护3.1基于对抗隐私的GNN隐私保护4.用于隐私保护的GNNs的数据集5.GNNs隐私保护的应用6.GNNs隐私保护的未来研究方向论文信息AComprehensiveSurveyonTrustworthyGraphNeuralNetworks:Privacy,Ro

BSRN网络——《Blueprint Separable Residual Network for Efficient Image Super-Resolution》论文解读

目录摘要:网络架构:具体流程:BSConv:ESDB——EfficientSeparableDistillationBlock: BlueprintShallowResidualBlock(BSRB):ESA和CCA: 实验:BSRN的实现细节:BSRN-S(比赛)的实现细节:不同卷积分解的效果:ESA和CCA的有效性: 不同激活函数对比:BSRN的有效性: 和SOTA方法的对比:视觉效果比较: BSRN-SforNTIRE2022Challenge:总结:摘要:单图像超分辨率(SISR)的最新进展已经取得了非凡的性能,但计算成本太高,无法应用于边缘设备。为了缓解这个问题,一些全新的并且有效的

一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

一个开源的大型语言模型LLaMA论文解读,LLaMA:OpenandEfficientFoundationLanguageModels返回论文和资料目录1.导读LLaMA是MetaAI发布的包含7B、13B、33B和65B四种参数规模的基础语言模型集合,LLaMA-13B仅以1/10规模的参数在多数的benchmarks上性能优于GPT-3(175B),LLaMA-65B与业内最好的模型Chinchilla-70B和PaLM-540B比较也具有竞争力。开源的代码在github上可以很方便获得,还有对应的原论文地址。2.摘要和引言大型语言模型存在一个问题是并非越大的模型具备越优的性能,所以可能存

【CSUR-IG】OpenHarmony啃论文俱乐部--我在ACM Survey阅读计算机综述,看到了卷54第八期十六篇:自动编程提示生成概览:HINTS 框架

本文出自ACM技术洞察研究团队(CSUR-IG),ComputingSurveysInterestGroup成员:深圳大学大三学生中原工学院研一学生中原工学院研一学生安阳工学院大三学生南通科技学院大三学生我们是来自4个地方的同学,我们在OpenHarmony成长计划啃论文俱乐部里,与华为、软通动力、润和软件、拓维信息、深开鸿等公司一起,学习和研究操作系统技术…文章目录@[toc]文章链接:摘要原文译文技术洞察报告用途场景技术点未来待研究:来自HINTS框架下的测量提示技术的见解提出目前存在的问题文章链接:原文链接:ASurveyofAutomatedProgrammingHintGenerat