草庐IT

pytorch_model

全部标签

【论文阅读】Language Models are Few-Shot Learners(GPT-3)

前言本文简要介绍了GPT-3的背景,模型架构,训练数据以及训练方式部分。具体训练细节,实验结果很多,可以在用到的时候再看Intro本文剖析了pretrain-finetune架构存在的问题:对于每个新的任务,都需要大量的标注数据将表达能力更强的模型(预训练阶段要求用大模型)在比较窄的数据(微调阶段是在narrow数据分布上进行的)上训练是不合理的。大模型的效果并不能泛化到OOD数据上人类在接触一个下游任务时不需要大量的训练样本,只需要对任务的描述或者几个例子就可以。我们希望NLP模型也能有这种多任务之间无缝衔接的能力解决上述问题可行的方案:meta-learning:模型在预训练阶段就学到了一

成功解决RuntimeError: [enforce fail at C:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\c

成功解决RuntimeError:[enforcefailatC:\actions-runner\_work\pytorch\pytorch\builder\windows\pytorch\c10\core\impl\alloc_cpu.cpp:72]data.DefaultCPUAllocator:notenoughmemory:youtriedtoallocate180355072bytes.目录解决问题解决思路解决方法T1、减少内存需求T2、释放不需要的内存T3、使用更大容量的机器或增加系统内存T4、使用分批处理或分布式计算T5、优化代码和内存管理解决问题RuntimeError:[en

Diffusion Model (扩散生成模型)的基本原理详解(二)Score-Based Generative Modeling(SGM)

本篇是《DiffusionModel(扩散生成模型)的基本原理详解(一)DenoisingDiffusionProbabilisticModels(DDPM)》的续写,继续介绍有关diffusion的另一个相关模型,同理,参考文献和详细内容与上一篇相同,读者可自行查阅,本篇着重介绍Score-BasedGenerativeModeling(SGM)的部分,本篇的理论部分参考与上一节相同,当然涉及了一些原文的理论部分,笔者在这里为了更能让各位读懂,略掉了原文的一些理论证明,感兴趣读者可以自行阅读SongYangetal.SGM原文。笔者只介绍重要思想和重要理论,省略了较多细节篇幅。下一节介绍本基

SRCNN超分辨率Pytorch实现,代码逐行讲解,附源码

目录1.SRCNN介绍训练过程损失函数个人对SRCNN训练过程的理解2.实验常见问题和部分解读1.torch.utils.data.dataloader中DataLoader函数的用法2.SRCNN图像颜色空间转换原因以及方法?3.model.parameters()与model.state_dict()的区别4..item()函数的用法?5.最后的测试过程步骤?6.argparse的使用以及定义7.unsqueeze与squeeze的使用 1.unsqueeze用法:在数组原来维度索引i之间增加一个维度2.Squeeze用法:挤压掉tensor数据中维度特征数为1的维度8.对Python之i

SRCNN超分辨率Pytorch实现,代码逐行讲解,附源码

目录1.SRCNN介绍训练过程损失函数个人对SRCNN训练过程的理解2.实验常见问题和部分解读1.torch.utils.data.dataloader中DataLoader函数的用法2.SRCNN图像颜色空间转换原因以及方法?3.model.parameters()与model.state_dict()的区别4..item()函数的用法?5.最后的测试过程步骤?6.argparse的使用以及定义7.unsqueeze与squeeze的使用 1.unsqueeze用法:在数组原来维度索引i之间增加一个维度2.Squeeze用法:挤压掉tensor数据中维度特征数为1的维度8.对Python之i

Pytorch 多卡并行训练教程 (DDP)

Pytorch多卡并行训练教程(DDP)在使用GPU训练大模型时,往往会面临单卡显存不足的情况,这时候就希望通过多卡并行的形式来扩大显存。PyTorch主要提供了两个类来实现多卡并行分别是torch.nn.DataParallel(DP)torch.nn.DistributedDataParallel(DDP)关于这两者的区别和原理也有许多博客如Pytorch并行训练(DP,DDP)的原理和应用;DDP系列第一篇:入门教程进行总结,这里就不在赘述了。不过总结来说的话:DP比较简单,对小白比较友好,一行代码便可以搞定。DDP每个进程对应一个独立的训练过程,且只对梯度等少量数据进行信息交换。每个进

图像分割之SAM(Segment Anything Model)

论文:SegmentAnythingGithub:https://github.com/facebookresearch/segment-anything论文从zero-shot主干网络的基础出发,提出了SAM(SegmentAnythingModel)模型。该模型有别于传统的分割模型。传统分割模型只能输入原图输出固定的分割结果,SAM在设计上可以同时输入原图和特定提示(点、框、阴影、文本),然后根据不同的提示输出不同的分割结果图,并且SAM支持不同提示的交互式分割。SAM可以适用于多种分割场景,包括交互式分割、边界检测、超分、物体生成、前景分割、语义分割、实例分割、全景分割等众多场景。另外为

AnoDDPM: Anomaly Detection with Denoising DiffusionProbabilistic Models using Simplex Noise论文学习

摘要1.在基于重建的异常检测中,不需要全长马尔可夫链扩散。这导致我们开发了一种新的部分扩散异常检测策略,可扩展到高分辨率图像,名为AnoDDPM。2.高斯扩散不能捕获较大的异常,因此,我们开发了一个多尺度的单纯形噪声扩散过程来控制目标异常大小。一、介绍1.DDPM能够从复杂的数据分布中生成样本,比GANs和VAEs具有更好的模式覆盖。去噪过程是从一个N(0,I)分布中获取样本,并随机地将其转换为一个学习到的数据分布。我们利用这一能力,构建了一个基于纯健康患者数据的模型AnoDDPM,该模型通过部分扩散过程将潜在的异常查询数据映射到健康分布上。然后,我们可以通过与原始图像进行比较来突出显示异常情

AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

AIGC之LLaMA:《LLaMA:OpenandEfficientFoundationLanguageModels》翻译与解读导读:该论文提出了一个开源的大规模语言模型LLaMA。该模型有以下几个核心技术点:>>模型架构:LLaMA使用Transformer架构,特别是采用解决层归一化方法的16层模型。这相比于其他模型有更深的深度,能够学习更复杂的语言表示。>>训练数据:LLaMA训练的数据集包含4TB的句子,来自于BookCorpus、CC-News、OpenWebText-2等多个数据源。如此大规模的数据集有助于模型学习更丰富的语言知识。>>学习率调度:LLaMA使用渐进式学习率调度方法

Pytorch实现基于深度学习的面部表情识别(最新,非常详细)

目录一、项目背景二、数据预处理1、标签与特征分离2、数据可视化3、分割训练集和测试集三、搭建模型四、训练模型五、训练结果附录一、项目背景基于深度学习的面部表情识别(Facial-expressionRecognition)数据集cnn_train.csv包含人类面部表情的图片的label和feature。在这里,面部表情识别相当于一个分类问题,共有7个类别。其中label包括7种类型表情:一共有28709个label,即包含28709张表情包。每一行就是一张表情包4848=2304个像素,相当于4848个灰度值(intensity)(0为黑,255为白)本项目同时支持GPU与CPU上运行。二、