草庐IT

nerf-pytorch

全部标签

instructGPT的前两阶段核心训练过程pytorch详细代码展示

训练细节这篇内容主要是介绍关于instructGPT在训练的过程中代码细节。InstructGPT一共有三个训练阶段,分别是有监督的微调,reward模型的训练,以及PPO的训练。对于这三个阶段理论上有了之后,更加重要的是如何用代码来实现这些理论的细节。笔者认为,了解理论还不够,必须要真正的将理论用代码的方式实现出来,才是能真正的心安。在以下的介绍中,会分别从数据的准备,模型的准备,和损失的计算三方面做各个阶段的代码介绍。注意,以下只是介绍核心的部分,从而了解核心后,读者可以自己应用到自己的框架中。核心部分指的是对某一个小batch(1个或者多个样本),演示如何准备必要的模型输入,模型的训练以

CNN经典网络模型(五):ResNet简介及代码实现(PyTorch超详细注释版)

目录一、开发背景二、网络结构三、模型特点四、代码实现1.model.py2.train.py3.predict.py4.spilit_data.py五、参考内容一、开发背景残差神经网络(ResNet)是由微软研究院的何恺明、张祥雨、任少卿、孙剑等人提出的,斩获2015年ImageNet竞赛中分类任务第一名,目标检测第一名。残差神经网络的主要贡献是发现了“退化现象(Degradation)”,并针对退化现象发明了“直连边/短连接(Shortcutconnection)”,极大的消除了深度过大的神经网络训练困难问题。神经网络的“深度”首次突破了100层、最大的神经网络甚至超过了1000层。二、网络

CNN经典网络模型(五):ResNet简介及代码实现(PyTorch超详细注释版)

目录一、开发背景二、网络结构三、模型特点四、代码实现1.model.py2.train.py3.predict.py4.spilit_data.py五、参考内容一、开发背景残差神经网络(ResNet)是由微软研究院的何恺明、张祥雨、任少卿、孙剑等人提出的,斩获2015年ImageNet竞赛中分类任务第一名,目标检测第一名。残差神经网络的主要贡献是发现了“退化现象(Degradation)”,并针对退化现象发明了“直连边/短连接(Shortcutconnection)”,极大的消除了深度过大的神经网络训练困难问题。神经网络的“深度”首次突破了100层、最大的神经网络甚至超过了1000层。二、网络

pytorch lightning最简上手

pytorchlightning最简上手pytorchlightning是对原生pytorch的通用模型开发过程进行封装的一个工具库。本文不会介绍它的高级功能,而是通过几个最简单的例子来帮助读者快速理解、上手基本的使用方式。在掌握基础API和使用方式之后,读者可自行到pytorchlightning的官方文档,了解进阶API。本文假设读者对原生pytorch训练脚本的搭建方法已经比较熟悉。安装pytorchlighning的安装非常简单,直接使用pip安装即可:pipinstallpytorch-lightning最简例子pytorchlightning有两个最核心的API:LigtningM

pytorch lightning最简上手

pytorchlightning最简上手pytorchlightning是对原生pytorch的通用模型开发过程进行封装的一个工具库。本文不会介绍它的高级功能,而是通过几个最简单的例子来帮助读者快速理解、上手基本的使用方式。在掌握基础API和使用方式之后,读者可自行到pytorchlightning的官方文档,了解进阶API。本文假设读者对原生pytorch训练脚本的搭建方法已经比较熟悉。安装pytorchlighning的安装非常简单,直接使用pip安装即可:pipinstallpytorch-lightning最简例子pytorchlightning有两个最核心的API:LigtningM

pytorch 笔记:torch.distributions 概率分布相关(更新中)

1包介绍        torch.distributions包包含可参数化的概率分布和采样函数。这允许构建用于优化的随机计算图和随机梯度估计器。        不可能通过随机样本直接反向传播。但是,有两种主要方法可以创建可以反向传播的代理函数。这些是评分函数估计量scorefunctionestimato似然比估计量likelihoodratioestimatorREINFORCE路径导数估计量pathwisederivativeestimatorREINFORCE通常被视为强化学习中策略梯度方法的基础,路径导数估计器常见于变分自编码器的重新参数化技巧中。        虽然评分函数只需要样

pytorch 笔记:torch.distributions 概率分布相关(更新中)

1包介绍        torch.distributions包包含可参数化的概率分布和采样函数。这允许构建用于优化的随机计算图和随机梯度估计器。        不可能通过随机样本直接反向传播。但是,有两种主要方法可以创建可以反向传播的代理函数。这些是评分函数估计量scorefunctionestimato似然比估计量likelihoodratioestimatorREINFORCE路径导数估计量pathwisederivativeestimatorREINFORCE通常被视为强化学习中策略梯度方法的基础,路径导数估计器常见于变分自编码器的重新参数化技巧中。        虽然评分函数只需要样

Windows端CUDA11.3+CUDNN+pytorch环境搭建

1、显卡驱动的安装最近,在学习pytorch深度学习,遇到很多的坑,环境配置也出现过问题,忍不住和大家进行分享,现在把环境搭建过程分享给大家。1.1、查看自己的显卡。具体操作:我的电脑-——属性——设备管理器——显示适配器1.2、驱动的下载、安装。在找到自己的显卡后,去NVIDIA官网下载安装驱动 选择自己的显卡类型,如果你是GTX显卡,有可能只能选择GameReady,区别很小,能用就行1.3、显卡驱动安装检测win+R输入cmd 打开窗口后输入:nvidia-smi 如果成功显示显卡数据,恭喜。右上角的11.6,说明我的显卡驱动最高支持11.6的cuda。但我肯定不能安装11.6,因为py

Windows端CUDA11.3+CUDNN+pytorch环境搭建

1、显卡驱动的安装最近,在学习pytorch深度学习,遇到很多的坑,环境配置也出现过问题,忍不住和大家进行分享,现在把环境搭建过程分享给大家。1.1、查看自己的显卡。具体操作:我的电脑-——属性——设备管理器——显示适配器1.2、驱动的下载、安装。在找到自己的显卡后,去NVIDIA官网下载安装驱动 选择自己的显卡类型,如果你是GTX显卡,有可能只能选择GameReady,区别很小,能用就行1.3、显卡驱动安装检测win+R输入cmd 打开窗口后输入:nvidia-smi 如果成功显示显卡数据,恭喜。右上角的11.6,说明我的显卡驱动最高支持11.6的cuda。但我肯定不能安装11.6,因为py

【深度强化学习】(7) SAC 模型解析,附Pytorch完整代码

大家好,今天和各位分享一下SAC(SoftActorCritic)算法,一种基于最大熵的无模型的深度强化学习算法。基于OpenAI的gym环境完成一个小案例,完整代码可以从我的GitHub中获得:https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model1.基本原理Deepmind提出的SAC(SoftActorCritic)算法是一种基于最大熵的无模型的深度强化学习算法,适合于真实世界的机器人学习技能。SAC算法的效率非常高,它解决了离散动作空间和连续性动作空间的强化学习问题。SAC算法在以最大化未来累积奖励的基础上