草庐IT

手把手带你调参Yolo v5(一)

深度之眼 2023-05-15 原文

来源:投稿 作者:王同学
编辑:学姐

 YOLO相关内容:

YOLOALL 一文了解YOLO各版本答案

YOLOv1学习笔记

YOLO v2主要看这些重点

YOLO v3对网络结构做了哪些改进?

YOLOv4:目标检测的最佳速度和精度

手把手带你调参Yolo v5(一)

手把手带你调参Yolo v5(二)

YOLOv5+Tesseract-OCR 实现车牌号文本识别

yolov7在工业中的小试牛刀

 

YOLO系列模型在目标检测领域有着十分重要的地位,随着版本不停的迭代,模型的性能在不断地提升,源码提供的功能也越来越多,那么如何使用源码就显得十分的重要,接下来我会通过两篇文章带大家手把手去了解Yolov5(v6.1)的每一个参数的含义, 并且通过具体的图片例子让大家明白每个参数改动将会给网络带来哪些影响。

1. 代码获取方式🍀

项目地址:https://github.com/ultralytics/yolov5

进入仓库点击tags可以查看项目目前提供的版本

我选择的代码是v6.1版本

2. 准备项目环境✨

在配置Conda环境后就可以进入项目了,可以通过作者提供的requirements.txt文件进行快速安装。

即在终端中键入如下指令:

pip install -r requirements.txt

requirements.txt文件里面有一些包被注释掉了,这些包是做一些额外的操作时候用的,不安装并不会影响训练和测试;但是有些工具是将.pt文件转换成.onnx时必须安装的;以后会介绍pt怎么转换成onnx,这些用的时候安装就可以。

3. YOLOv5命令行预测方式介绍💡

这里介绍一下官方给提供的预测方式,我们平时都是在Pycharm中点击“运行”按钮去预测模型,其实还可以通过命令行的方式去预测,预测后的结果会自动保存到runs/detect路径下;其实在这条指令后面还可以加上一些参数,具体怎么加后面会详细说明。

python detect.py --source 0  # webcam
                          img.jpg  # image
                          vid.mp4  # video
                          path/  # directory
                          path/*.jpg  # glob
                          'https://youtu.be/Zgi9g1ksQHc'  # YouTube
                          'rtsp://example.com/media.mp4'  # RTSP, RTMP, HTTP stream

这里说一下 path/*.jpg ,这个意思就是预测path文件夹下以.jpg结尾的文件

4. detect.py文件解读🚀

4.1 检测一下看看效果

我们可以直接运行detect.py文件试试效果,运行后系统会把检测结果保存在runs\detect\exp2路径

检测效果就是这样子的

这两张是项目自带的图片,我们也可以把自己想测试的图片或者视频放到这个路径下:

4.2 参数详解

打开detect.py直接看217行

4.2.1 “weights”

这个就是指定网络权重的路径,默认是“yolov5s.pt”,官方提供了很多的版本,我们要更换的时候直接按照Model的名字更换就可以了;例如“yolov5m.pt” “yolov5l.pt”,他会自动的下载对应的权重,不需要我们去Github手动下载.(如果下载太慢或者失败只能去官网下载了,下载好了直接放到根目录下就可以)

这里说一下“default”:default是默认的参数,即使我们在运行时不指定具体参数,那么系统也会执行默认的值。

4.2.2 “source”

这个参数就是指定网络输入的路径,默认指定的是文件夹,也可以指定具体的文件或者扩展名等

4.2.3 “data”

这个就是配置文件的一个路径,配置文件里面包含了下载路径和一些数据集基本信息,在训练时如果不自己指定数据集,系统会自己下载coco128数据集

4.2.4 “imgsz, img, img-size”

这个意思就是模型在检测图片前会把图片resize成640的size,然后再喂进网络里,并不是说会把们最终得到的结果resize成640大小

4.2.5 “conf-thres”

这个就是置信度的阈值,置信度这个概念我在我的博文“YOLOv1详细解读”里面详细介绍了一下,感兴趣的小伙伴可以看一下。

通俗一点来说就是网络对检测目标相信的程度,如果这里设置“0”的话,那么网络只要认为这他预测的这个目标有一点点的概率是正确的目标,他都会给框出来,我们可以通过这几幅图对比一下

我这里把conf-thres参数依次设置成“0”, “0.25”,“0.8”

原图:

conf-thres=0

conf-thres=0.25

conf-thres=0.8

Q1:这里参数到底设置成多少好呢?

我觉得还是根据自己的数据集情况自行调整

4.2.6 “iou-thres”

这个参数就是调节IoU的阈值,这里简单介绍一下NMSIoU

4.2.6.1 NMS介绍

在执行目标检测任务时,算法可能对同一目标有多次检测。NMS 是一种让你确保算法只对每个对象得到一个检测框的方法。

在正式使用NMS之前,通常会有一个候选框预清理的工作(简单引入一个置信度阈值),如下图所示:

NMS 算法的大致过程:每轮选取置信度最大的 Bounding Box(简称 BBox) 接着关注所有剩下的BBox中与选取的BBox有着高重叠(IoU)的,它们将在这一轮被抑制。这一轮选取的BBox会被保留输出,且不会在下一轮出现。接着开始下一轮,重复上述过程:选取置信度最大BBox,抑制高IoU BBox。(关于Bounding Box Regression的详细介绍,我强力推荐我的另一篇博文)

IoU可以理解预测框和真实框的交并比

NMS步骤:

  • 第一步:对 BBox 按置信度排序,选取置信度最高的 BBox(所以一开始置信度最高的 BBox 一定会被留下来);

  • 第二步:对剩下的 BBox 和已经选取的 BBox 计算 IOU,淘汰(抑制) IOU 大于设定阈值的 BBox(在图例中这些淘汰的 BBox 的置信度被设定为0)。

  • 第三步:重复上述两个步骤,直到所有的 BBox 都被处理完,这时候每一轮选取的 BBox 就是最后结果。

在上面这个例子中,NMS只运行了两轮就选取出最终结果:第一轮选择了红色BBox,淘汰了粉色BBox;第二轮选择了黄色BBox,淘汰了紫色 BBox和青色BBox。注意到这里设定的IoU阈值是0.5,假设将阈值提高为0.7,结果又是如何?

可以看到,NMS 用了更多轮次来确定最终结果,并且最终结果保留了更多的 BBox,但结果并不是我们想要的。因此,在使用 NMS 时,IoU 阈值的确定是比较重要的,但一开始我们可以选定 default 值(论文使用的值)进行尝试。

4.2.6.2 不同阈值例子 如果看不懂的话就直接通过例子来理解一下:

这里我“iou-thres”分别取“0”,“0.45”,“0.9”,“1”

iou-thres=0:

iou-thres=0.45:

iou-thres=0.9:

iou-thres=1:

4.2.7 “max-det”

这个就是最大检测数量,默认是最多检测1000个目标:

我这里把“max-det”分别设置成“0”“1”“5”“1000”大家感受一下

max-det=0:

max-det=1:

max-det=5:

max-det=1000:

4.2.8 “device”

这个参数意思就是指定GPU数量,如果不指定的话,他会自动检测,这个参数是给GPU多的土豪准备的。

4.2.9 “action='store_true'”说明

这个类型的参数和之前的有很大区别,大家可以把他理解成一个“开关”,当我们运行程序的时候如果指定了带有action='store_true'类型的参数,那么就相当于启动这个参数所对应的功能,反之则不。我会拿下面的举个例子。

4.2.10 “view-img”

这个参数意思就是检测的时候是否实时的把检测结果显示出来,即我如果在终端中输入以下指令 :

python detect.py --view-img

那么意思就是我在检测的时候系统要把我检测的结果实时的显示出来,假如我文件夹有5张图片,如果指定了这个参数的话,那么模型每检测出一张就会显示出一张,直到所有图片检测完成。如果我不指定这个参数,那么模型就不会一张一张的显示出来。

4.2.11 “save-txt”

这个参数的意思就是是否把检测结果保存成一个.txt的格式,我们来看一下指定了这个参数的效果:

终端键入:

python detect.py --save-txt

可以看到输出结果多了一个labels文件夹

打开这个文件夹我们就可以看到两个.txt文件

这两个.txt文件里面保存了一些类别信息和边框的位置信息

4.2.12 “save-conf”

这个参数的意思就是是否以.txt的格式保存目标的置信度

如果单独指定这个命令是没有效果的;

python detect.py  --save-conf #不报错,但没效果

必须和--save-txt配合使用,即:

 python detect.py --save-txt --save-conf

如果指定了这个参数就可以发现,同样是保存txt格式的文件,这次多了红色框里面的置信度值。原来每行只有5个数字,现在有6个了。

4.2.13 “save-crop”

这个参数的意思就是是否把模型检测的物体裁剪下来,如果开启了这个参数会在crops文件夹下看到几个以类别命名的文件夹,里面保存的都是裁剪下来的图片。

这几张就是backpack和handbag文件夹下的图片

4.2.14 “nosave”

开启这个参数就是不保存预测的结果,但是还会生成exp文件夹,只不过是一个空的exp

我觉得这个参数应该是和“--view-img”配合使用的

4.2.15 “classes”

这里又出现了一个新的参数,这个的意思就是我们可以给变量指定多个赋值,也就是说我们可以把“0”赋值给“classes”,也可以把“0”“2”“4”“6”都赋值给“classes”

接下来说classes参数,这里看一下coco128.yaml的配置文件就明白了,比如说我这里给classes指定“0”,那么意思就是只检测人这个类别。

例:键入如下指令:

python detect.py --classes 0

4.2.16 “agnostic-nms”

这个是增强版的nms,算是一种trick吧,通过一个例子对比一下:

启用后:

然而我并没有感受到区别,或许是我用的yolov5s.pt的原因吧

4.2.17 “augment”

这个参数也是一种增强的方式

启用前:

启用后:

这个还是有很明显的区别的

4.2.18 “visualize”

这个参数的意思就是是否把特征图可视化出来,如果开启了这和参数可以看到exp文件夹下又多了一些文件,这里.npy格式的文件就是保存的模型文件,可以使用numpy读写,.png就是图片文件啦。

下面来看一下保存下来的特征图:

stage0:

stage3:

stage6:

stage23:

4.2.19 “update”

如果指定这个参数,则对所有模型进行strip_optimizer操作,去除pt文件中的优化器等信息。

4.2.20 “project”

这个就是我们预测结果保存的路径。

4.2.21 “name”

这个就是预测结果保存的文件夹名字

4.2.22 “exist-ok”

这个参数的意思就是每次预测模型的结果是否保存在原来的文件夹,如果指定了这个参数的话,那么本次预测的结果还是保存在上一次保存的文件夹里;如果不指定就是每次预测结果保存一个新的文件夹下。

4.2.23 “line-thickness”

这个参数就是调节预测框线条粗细的,因为有的时候目标重叠太多会产生遮挡;

终端键入:

python detect.py --line-thickness 10

4.2.24 “hide-labels”

这个参数就是隐藏标签的

终端键入:

python detect.py --hide-labels  

4.2.25 “hide-conf”

这个参数就是隐藏标签的置信度用的

终端键入;

 python detect.py --hide-conf

4.2.26 “half”

这个参数的意思就是是否使用 FP16 半精度推理,简单介绍一下低精度技术:

低精度技术 (high speed reduced precision)。在training阶段,梯度的更新往往是很微小的,需要相对较高的精度,一般要用到FP32以上。在inference的时候,精度要求没有那么高,一般F16(半精度)就可以,甚至可以用INT8(8位整型),精度影响不会很大。同时低精度的模型占用空间更小了,有利于部署在嵌入式模型里面。

4.2.27 “dnn”

这个参数的意思就是是否使用 OpenCV DNN 进行 ONNX 推理

DNN即Deep Neural Networks

这个我并没有用过,我觉得应该和torch.hub比较类似

感兴趣的小伙伴可以去opencv文档看一下

参考文献

非极大值抑制算法

小彩蛋:🎉

Pycharm通过点击“运行”按钮生成exp文件夹的速度要比在终端里键入指令生成exp文件夹的速度快。

有问题欢迎大家指正,如果感觉有帮助的话请点赞支持下👍📖🌟

Yolo系列论文+代码数据集🚀🚀🚀

关注下方《学姐带你玩AI》回复“YOLO”即可领取

码字不易,欢迎大家点赞评论收藏!

有关手把手带你调参Yolo v5(一)的更多相关文章

  1. Unity 3D 制作开关门动画,旋转门制作,推拉门制作,门把手动画制作 - 2

    Unity自动旋转动画1.开门需要门把手先动,门再动2.关门需要门先动,门把手再动3.中途播放过程中不可以再次进行操作觉得太复杂?查看我的文章开关门简易进阶版效果:如果这个门可以直接打开的话,就不需要放置"门把手"如果门把手还有钥匙需要旋转,那就可以把钥匙放在门把手的"门把手",理论上是可以无限套娃的可调整参数有:角度,反向,轴向,速度运行时点击Test进行测试自己写的代码比较垃圾,命名与结构比较拉,高手轻点喷,新手有类似的需求可以拿去做参考上代码usingSystem.Collections;usingSystem.Collections.Generic;usingUnityEngine;u

  2. 关于yolov5训练时参数workers和batch-size的理解 - 2

    关于yolov5训练时参数workers和batch-size的理解yolov5训练命令workers和batch-size参数的理解两个参数的调优总结yolov5训练命令python.\train.py--datamy.yaml--workers8--batch-size32--epochs100yolov5的训练很简单,下载好仓库,装好依赖后,只需自定义一下data目录中的yaml文件就可以了。这里我使用自定义的my.yaml文件,里面就是定义数据集位置和训练种类数和名字。workers和batch-size参数的理解一般训练主要需要调整的参数是这两个:workers指数据装载时cpu所使

  3. 手把手教你使用ChatGPT辅助写论文 - 2

    ChatGPT是一款引人注目的产品,它的突破性功能在各个领域都创造了巨大的需求。仅在发布后的两个月内,就累计了超过1亿的用户。它最突出的功能是能够在几秒钟内完成各种文案创作,包括论文、歌曲、诗歌、睡前故事和散文等。与流行的观点相反,ChatGPT可以做的不仅仅是为你写一篇文章,更有用的是它如何帮助指导您的写作过程和写作方法。接下来手把手教你利用ChatGPT辅助完成写作的五种方法。1.使用ChatGPT生成论文的观点在开始写作之前,我们需要让ChatGPT帮我们充实想法,找到论文切入点。当老师布置论文时,通常会给予学生一个提示,让他们可以自由地表达和分析。这时,我们需要找到论文的角度和思路,然

  4. 嵌入式Linux入门-彻底理解UART串口,手把手教你写程序 - 2

    UART串口这个东西,是嵌入式学习上避不开的,不仅在调试中经常用到,还有很多模块通过串口与SOC相连。这篇文章让你彻彻底底,搞明白串口程序的编写。没有基础的先看:嵌入式Linux学习系列全部文章:嵌入式Linux学习—从裸机到应用教程大全 目录1.UART串口1.1UART硬件连接1.2UART软件通信协议2.读手册,编程序2.1找对应引脚2.2设置GPIO为UART功能2.3设置UART(初始化)2.4编写发送接收函数3.完整代码和验证1.UART串口全称:通用异步收发传输器(UniversalAsynchronousReceiver/Transmitter,简称UART)是一种串行异步收发

  5. 手把手教你搭建SpringCloud Alibaba之生产者与消费者 - 2

      SpringCloudAlibaba全集文章目录:零、手把手教你搭建SpringCloudAlibaba项目一、手把手教你搭建SpringCloudAlibaba之生产者与消费者二、手把手教你搭建SpringCloudAlibaba之Nacos服务注册中心三、手把手教你搭建SpringCloudAlibaba之Nacos服务配置中心四、手把手教你搭建SpringCloudAlibaba之Nacos服务集群配置五、手把手教你搭建SpringCloudAlibaba之Nacos服务持久化配置六、手把手教你搭建SpringCloudAlibaba之Sentinel实现流量实时监控七、手把手教你搭

  6. 必看新手教程!一篇就够!pycharm链接云服务器--yolov5 yolov7训练自己的数据集(矩池云) - 2

    趁着寒假期间稍微尝试跑了一下yolov5和yolov7的代码,由于自己用的笔记本没有独显,台式机虽有独显但用起来并不顺利,所以选择了租云服务器的方式,选择的平台是矩池云(价格合理,操作便捷)需要特别指出的是,如果需要用pycharm链接云服务器训练,必须要使用pycharm的专业版而不是社区版,专业版可以使用SSH服务连接云服务器。关于专业版的获取,据我所知一是可以买,二是如果你是在校大学生,可以用学生证向JetBrain申请专业版使用权,我就是通过这种方式激活专业版账户的,我记得当时两三天官方就发激活邮件了,还是很人性化的,使用期一年。下面开始正题本教程只涉及将yolov5及yolov7跑通

  7. yolov5环境配置 - 2

    目录背景1、Anaconda3安装(1)安装Anaconda3后,换源遇到的问题(2)处理方法(3)Anaconda3环境变量配置2、显卡驱动安装3、安装CUDA(1)安装CUDA(2)安装cuDNN(3)CUDA环境配置4、安装pytorch,配置pytorch环境,克隆yolov5包(1)安装pytorch(2)检测是否安装成功(3)yolov5-v3.1源码安装配置(4)测试yolov5环境代码完整安装步骤背景Windows系统下,()括号中为我安装的版本或者对版本解释1、安装Anaconda3(我的版本),配置好环境变量(不同版本环境变量文件可能不同)2、安装电脑对应的显卡版本驱动(N

  8. 【C语言进阶】还说不会?一文带你全面掌握计算机预处理操作 - 2

    目录🍊前言🍊:🍈一、宏与函数🍈:        1.宏与函数对比:    2.宏与函数的命名约定:🍓二、预处理操作符🍓:    1.预处理操作符"#":    2.预处理操作符"##":🥝三、条件编译🥝:    1.简述条件编译指令:    2.常见条件编译指令:🍒总结🍒:🛰️博客主页:✈️銮同学的干货分享基地🛰️欢迎关注:👍点赞🙌收藏✍️留言🛰️系列专栏:💐【进阶】C语言学习            🧧  C语言学习🛰️代码仓库:🎉VS2022_C语言仓库    家人们更新不易,你们的👍点赞👍和⭐关注⭐真的对我真重要,各位路过的友友麻烦多多点赞关注,欢迎你们的私信提问,感谢你们的转发!    

  9. 一文带你通俗理解23种软件设计模式(推荐收藏,适合小白学习,附带C++例程完整源码) - 2

    作者:翟天保Steven版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处一、设计模式是什么?    设计模式是为了解决在软件开发过程中遇到的某些问题而形成的思想。同一场景有多种设计模式可以应用,不同的模式有各自的优缺点,开发者可以基于自身需求选择合适的设计模式,去解决相应的工程难题。    良好的软件设计和架构,可以让代码具备良好的可读性、可维护性、可扩展性、可复用性,让整个系统具备较强的鲁棒性和性能,减少屎山代码出现的概率。    想要熟练运用设计模式,提高自己的编程能力和架构能力,只有在自己工作中,结合自身工作内容,多思考多实践。本文只能通过举一些通俗的例子,来

  10. 小米电视盒子怎样看电视直播?图文教程手把手装应用 - 2

    现在智能电视的更换成本很高,更新的速度也非常之快,不少朋友会使用电视盒子来代替电视。因为小米盒子性价比高,配置很棒,资源又挺齐全的,大家都会比较优先选择入手。可很多使用了小米盒子的朋友发现,它并不能直接收看电视直播节目,小米电视盒子怎样看电视直播?要解决这个问题,其实很简单,看以下教程。1.小米电视盒子怎样看电视直播方法——下载美家市场①进入美家市场官网下载最新版本apk文件,并复制粘贴到u盘②打开“设置”→“账号安全”,将【安装未知来源的应用】和【米联安全】设置为允许;③将U盘插到小米盒子的USB接口上,会自动检测到新的USB设备,打开它;④没弹出U盘的可以打开应用程序下的“高清播放器”,切

随机推荐