草庐IT

(论文阅读)Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

论文地址https://openreview.net/pdf?id=_VjQlMeSB_J摘要        我们探索如何生成一个思维链——一系列中间推理步骤——如何显著提高大型语言模型执行复杂推理的能力。特别是,我们展示了这种推理能力如何通过一种称为思维链提示的简单方法自然地出现在足够大的语言模型中,其中提供了一些思维链演示作为提示中的示例。        对三种大型语言模型的实验表明,思维链提示提高了一系列算术、常识和符号推理任务的性能。实证收益可能是惊人的。例如,仅使用八个思维链范例来提示PaLM540B在数学单词问题的GSM8K基准测试中实现了最先进的准确性,甚至超过了带有验证器的微调

GPT-2隐私泄露论文阅读:Extracting Training Data from Large Language Models

文章目录论文地址:原文阐释:渔樵问对:原理梗概预防策略隐私策略这个新颖的攻击方式是什么?三种典型采样策略:隐私风险文章第5页第二段中提到的memorizedtrainingexample是什么意思ThreatModel&Ethics什么是文本的zlibentropy?文章中反复提到了一个词surprise,并用引号引了起来,这个surprise在文中是什么含义?解释theratiooftheperplexityonthesample在文中是什么意思?文章第7页最后一段说比较两个模型的输出,这样有什么作用呢?(这个问题在文章中很重要)theratiooftheperplexityonthesam

GPT-2隐私泄露论文阅读:Extracting Training Data from Large Language Models

文章目录论文地址:原文阐释:渔樵问对:原理梗概预防策略隐私策略这个新颖的攻击方式是什么?三种典型采样策略:隐私风险文章第5页第二段中提到的memorizedtrainingexample是什么意思ThreatModel&Ethics什么是文本的zlibentropy?文章中反复提到了一个词surprise,并用引号引了起来,这个surprise在文中是什么含义?解释theratiooftheperplexityonthesample在文中是什么意思?文章第7页最后一段说比较两个模型的输出,这样有什么作用呢?(这个问题在文章中很重要)theratiooftheperplexityonthesam

LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS

PapernameLORA:LOW-RANKADAPTATIONOFLARGELAN-GUAGEMODELSPaperReadingNotePaperURL:https://arxiv.org/pdf/2106.09685.pdfCodeURL:huggingface集成:https://github.com/huggingface/peft官方代码:https://github.com/microsoft/LoRATL;DR本文提出了低秩自适应(Low-RankAdaptation,LoRA),它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层,极大地减

【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

论文题目:《LLaMA:OpenandEfficientFoundationLanguageModels》论文链接:https://arxiv.org/pdf/2302.13971.pdfgithub链接:https://github.com/facebookresearch/llama/tree/mainhuggingface链接:https://huggingface.co/decapoda-research/llama-7b-hf1模型简介LLaMA是MetaAI发布的包含7B、13B、33B和65B四种参数规模的基础语言模型集合,LLaMA-13B仅以1/10规模的参数在多数的benc

【Stable Diffusion论文精读】High-Resolution Image Synthesis with Latent Diffusion Models(主打详细和易懂)

【StableDiffusion论文精读】High-ResolutionImageSynthesiswithLatentDiffusionModels(主打详细和易懂)0、前言(学的明明白白)Abstract1.Introduction1.1民主化的Democratizing高分辨率图像合成1.2向潜在空间出发1.3总结2.RelatedWork(粗看)2.1GenerativeModelsforImageSynthesis2.2DiffusionProbabilisticModels(DM)2.3Two-StageImageSynthesis3.Method(需要细看)3.1.Percept

Dr. LLaMA: Improving Small Language Models in Domain-Specific QAvia Generative Data Augmentation

https://arxiv.org/pdf/2305.07804.pdfhttps://arxiv.org/pdf/2305.07804.pdfOurfindingsindicatethatLLMseffectivelyrefineanddiversifyexistingquestion-answerpairs,resultinginimprovedperformanceofamuchsmallermodelondomain-specificQAdatasetsafterfine-tuning.ThisstudyhighlightsthechallengesofusingLLMsfordoma

论文笔记High-Resolution Image Synthesis with Latent Diffusion Models

论文提出了latentdiffusionmodels(LDMs)。基于该模型最著名的工作是文本生成图像模型stable-diffusion。普通的扩散模型在像素空间操作,运算复杂度较高。为了保证在低资源下训练扩散模型,并保留扩散模型的质量和灵活性,该论文使用预训练的自编码器得到隐含空间,并在隐含空间中训练扩散模型。另一方面,该论文使用cross-attention机制为扩散模型引入条件,条件可以是文本、boundingbox等。方法方法的整体结构如上图。先用自编码器训练通用的压缩模型(红色部分),通用的压缩模型可以用来训练不同的扩散模型。之后在自编码器的低维隐含空间上训练扩散模型(绿色部分),

吴恩达AIGC《How Diffusion Models Work》笔记

1.IntroductionMidjourney,StableDiffusion,DALL-E等产品能够仅通过Prompt就能够生成图像。本课程将介绍这些应用背后算法的原理。课程地址:https://learn.deeplearning.ai/diffusion-models/2.Intuition本小节将介绍扩散模型的基础知识,探讨扩散模型的目标,如何利用各种游戏角色图片训练数据来增强模型的能力。假设下面是你的数据集,你想要更多的在这些数据集中没有的角色图片,如何做到?可以使用扩散模型生成这样的角色图片。扩散模型应该是这样的一个神经网络:它能够学习到游戏角色的一般概念,例如游戏角色是什么,游

[记录解决YOLOv5加载权重文件报错问题]AttributeError: Can‘t get attribute ‘DetectionModel‘ on <module ‘models.yolo‘

【记录解决YOLOv5加载权重文件报错问题】报错原因:YOLOv5新旧版本不兼容,models下的yolo.py文件缺少DetectionModel模块代码。解决步骤:1.GitHub(链接:link)找到更新后的v5版本。2.找到models文件夹下的yolo.py,查找DetectionModel模块,将图片中的代码(Segment部分、BaseModel部分、DetectionModel部分)粘贴至报错的yolo.py里。3.粘贴完后,运行yolo.py文件