草庐IT

深度学习

全部标签

Proximal Policy Optimization (PPO) 算法理解:从策略梯度开始

近端策略优化(PPO)算法是OpenAI在2017提出的一种强化学习算法,被认为是目前强化学习领域的SOTA方法,也是适用性最广的算法之一。本文将从PPO算法的基础入手,理解从传统策略梯度算法(例如REIFORCE算法)、自然策略梯度算法、信赖域策略优化算法(TRPO)直到PPO算法的演进过程,以及算法迭代过程中的优化细节。整体框图如下图所示。图1.本文整体框图1.传统策略梯度算法1.1从价值近似到策略近似强化学习算法可以分为两大类:基于值函数的强化学习和基于策略的强化学习。基于值函数的强化学习通过递归地求解贝尔曼方程来维护Q值函数(可以是离散的列表,也可以是神经网络),每次选择动作时会选择该

深度学习——VGG16模型详解

1、网络结构VGG16模型很好的适用于分类和定位任务,其名称来自牛津大学几何组(VisualGeometryGroup)的缩写。根据卷积核的大小核卷积层数,VGG共有6种配置,分别为A、A-LRN、B、C、D、E,其中D和E两种是最为常用的VGG16和VGG19。介绍结构图:conv3-64:是指第三层卷积后维度变成64,同样地,conv3-128指的是第三层卷积后维度变成128;input(224x224RGBimage):指的是输入图片大小为224244的彩色图像,通道为3,即224224*3;maxpool:是指最大池化,在vgg16中,pooling采用的是2*2的最大池化方法(如果不

DDPM代码详细解读(1):数据集准备、超参数设置、loss设计、关键参数计算

paper:DenoisingDiffusionProbabilisticModels(https://arxiv.org/abs/2006.11239)本文代码地址:pytorchcifar10:https://github.com/w86763777/pytorch-ddpm一、超参数设置【main.py】超参数设置使用absl包中flags进行管理,–num_res_blocks是Unet中每个level的resnet数量,–attn是attentionblock,向这些层中添加注意力,这个是后面我们加入condition的途径,非常重要。flags.DEFINE_multi_integ

MMDetection3D库中的一些模块介绍

本文目前仅包含2个体素编码器、2个中间编码器、1个主干网络、1个颈部网络和1个检测头。如果有机会,会继续补充更多模型。若发现内容有误,欢迎指出。  MMDetection3D的点云数据一般会经历如下步骤/模块:#mermaid-svg-q9Wy2NQvFHfuPWKs{font-family:"trebuchetms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-q9Wy2NQvFHfuPWKs.error-icon{fill:#552222;}#mermaid-svg-q9Wy2NQvFHfuPWKs.err

RepVGG论文详解(超级详细)

    RepVGG是2021年发表于CVPR,它和resnet一样是一种图像分类网络,在目标检测中被用作backbone,论文提出一种新型技术称之结构重参数化,简单来说就是对训练出的模型进行等价替换成一个简单的模型,然后用这个简单的模型进行推理(也就是testing),目的就是加快推理速度,提高模型实用性。  论文地址:https://arxiv.org/abs/2101.03697论文源码:https://github.com/megvii-model/RepVGG目录1、摘要和引言(RepVGG是什么) 对于复杂的网络明明可以达到一个非常高的精度为什么不用呢?1.1RepVGG模型结构2

anaconda 创建虚拟环境、激活,使用的基本方法及安装包的基本方法

第一步打开AnacondaPrompt可以看到这里是base环境。第二步我们现在要创建一个新的虚拟环境,名叫test,且python版本为3.8在安装过程中会出现下面这个选项,输入y就好了创建成功如下图所示!hiahia!我们已经学会如何创建新的环境了!没错!我们非常棒!下面我们就看看,如何切换到我们新创建的环境中去吧!第三步,激活环境test输入condaactivatetest(激活环境test)可以看到,环境已经从base变到了test环境已经创建好了,也已经切换到新的环境中了,但是在新环境中安装我们所需要的包之前,我们确定安装的包的版本,找到与python3.8所匹配的包的版本,在进行

张量(Tensor)的降维与升维

一、Tensor的降维——torch.squeeze()函数1.tensor的维度小编对于张量的理解一直很模糊,今天用Excel来帮助大家理解,希望对大家有所帮助。首先,张量是多维数组,这里不多赘述,可以去查阅相关资料。今天重点介绍的是张量的维度。张量有一维、二维、三维、四维等。一维:正如我们的Eecel表里的3个数字就组成一维数据。你也可以把它理解为一行数据,即由单个元素组成的一组数据。  二维: 二维就是一维的叠加。前面所说可以把“一行”看作一维那么二维就是多行,也就相当于Excel里的一个工作部(下方的sheet1)但是这里要注意,代码最外面有两个中括号,如果只有一个中括号,就会报错。这

javascript - 学习 Javascript 与 jQuery

我得到了Wrox.Beginning.JavaScript.3rd.Edition并想从头开始学习它,然后我的老板走过来说,为什么这么麻烦,学习jQuery。尽管我是新手并且对ASP.net、vb.net、一些C#和基本HTML的了解有限,但我能理解jQuery并使用它吗?! 最佳答案 jQuery是javascript。我认为你在正确的道路上。学好javascript,你就能更好地使用jQuery。 关于javascript-学习Javascript与jQuery,我们在StackOv

cartopy安装保姆教程--三天的试错,终于成功了

文章目录cartopy安装保姆教程--三天的试错,终于成功了cartopy安装过程电脑切换python的版本也就是cmd里面调用python切换jupyter的python内核pycharm切换内核重要的是第一部分,后面无关紧要cartopy安装保姆教程–三天的试错,终于成功了cartopy安装过程刚开始我用pipinstallcartopy按照cartopy,但是它安装不上去,说什么可能不是pip的问题。然后就去百度了,看文章说是因为官方的一些东西不匹配,需要自己下载一些包,进行本地安装,然后我就看了好多文章,网上的帖子都是python3.8或者3.9版本的,但是我安装的是python3.7

Linux驱动开发(十八)---网络(网卡)驱动学习

前文回顾《Linux驱动开发(一)—环境搭建与helloworld》《Linux驱动开发(二)—驱动与设备的分离设计》《Linux驱动开发(三)—设备树》《Linux驱动开发(四)—树莓派内核编译》《Linux驱动开发(五)—树莓派设备树配合驱动开发》《Linux驱动开发(六)—树莓派配合硬件进行字符驱动开发》《Linux驱动开发(七)—树莓派按键驱动开发》《Linux驱动开发(八)—树莓派SR04驱动开发》《Linux驱动开发(九)—树莓派I2C设备驱动开发(BME280)》《Linux驱动开发(十)—树莓派输入子系统学习(红外接收)》《Linux驱动开发(十一)—树莓派SPI驱动学习(OL