YOLOv5全面解析教程⑥：模型训练流程详解

OneFlow深度学习框架 2023-04-19 原文

作者 | Fengwen、BBuf

欢迎Star、试用One-YOLOv5：

https://github.com/Oneflow-Inc/one-yolov5

结构项目预览

安装

git clone https://github.com/Oneflow-Inc/one-yolov5  # clone
cd one-yolov5
pip install -r requirements.txt  # install

3 训练

两种训练方式

带权重训练

$ python path/to/train.py --data coco.yaml --weights yolov5s --img 640

2. 不带权重训练

$ python path/to/train.py --data coco.yaml --weights '' --cfg yolov5s.yaml --img 640

单GPU训练

$ python train.py  --data coco.yaml --weights yolov5s --device 0

多GPU训练

$ python -m oneflow.distributed.launch --nproc_per_node 2 train.py --batch 64 --data coco.yaml --weights yolov5s --device 0,1

注意：

--nproc_per_node 指定要使用多少GPU。举个例子:在上面多GPU训练指令中它是2。
--batch 是总批量大小。它将平均分配给每个GPU。在上面的示例中，每GPU是64/2＝32。
--cfg : 指定一个包含所有评估参数的配置文件。
上面的代码默认使用GPU 0…（N-1）。使用特定的GPU？可以通过简单在 --device 后跟指定GPU来实现。「案例」，在下面的代码中，我们将使用GPU 2,3。

$ python -m oneflow.distributed.launch --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --device 2,3

恢复训练

如果你的训练进程中断了，你可以这样恢复先前的训练进程。

# 多卡训练.
python -m oneflow.distributed.launch --nproc_per_node 2 train.py --resume

你也可以通过 --resume 参数指定要恢复的模型路径。

# 记得把 /path/to/your/checkpoint/path  替换为你要恢复训练的模型权重路径
--resume /path/to/your/checkpoint/path

使用SyncBatchNorm

SyncBatchNorm可以提高多gpu训练的准确性，但会显著降低训练速度。它仅适用于多GPU DistributedDataParallel 训练。建议最好在每个GPU上的样本数量较小（样本数量<=8）时使用。

要使用SyncBatchNorm，只需将添加 --sync-bn 参数选项，具体「案例」如下:

$ python -m oneflow.distributed.launch --nproc_per_node 2 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights '' --sync-bn

4 评估

下面的命令是在COCO val2017数据集上以640像素的图像大小测试 yolov5x 模型。yolov5x是可用小模型中最大且最精确的，其它可用选项是 yolov5n ，yolov5m，yolov5s，yolov5l ，以及他们的 P6 对应项比如 yolov5s6 ，或者你自定义的模型，即 runs/exp/weights/best 。

$ python val.py --weights yolov5x --data coco.yaml --img 640

5 推理

首先，下载一个训练好的模型权重文件，或选择你自己训练的模型；然后，通过 detect.py文件进行推理。

python path/to/detect.py --weights yolov5s --source 0              # webcam
                                                    img.jpg        # image
                                                    vid.mp4        # video
                                                    path/          # directory
                                                    path/*.jpg     # glob
                                                    'https://youtu.be/Zgi9g1ksQHc'  # YouTube
                                                    'rtsp://example.com/media.mp4'  # RTSP, RTMP, HTTP stream

6 训练结果

本地日志

默认情况下，所有结果都记录为runs/train，并为每个新训练创建一个新的训练结果目录，如runs/train/exp2、runs/train/exp3等。查看训练和测试JPG以查看 mosaics, labels, predictions and augmentation 效果。注意：Mosaic Dataloader 用于训练（如下所示），这是Ultralytics发表的新概念，首次出现在YOLOv4中。

train_batch0.jpg 显示 batch 为 0 的 (mosaics and labels):

val_batch0_labels.jpg 展示测试 batch 为 0 的labels:

val_batch0_pred.jpg 展示测试 batch 为 0 predictions(预测):

训练训损失和性能的指标有记录到Tensorboard和自定义结果中results.csv日志文件，训练训完成后作为结果绘制 results.png如下。在这里，我们展示了在COCO128上训练的YOLOV5结果

从零开始训练 (蓝色)。
加载预训练权重 --weights yolov5s (橙色)。

具体的指标分析详见文章《模型精确度评估》

7 训练技巧

声明：大多数情况下，只要数据集足够大且标记良好，就可以在不改变模型或训练设置的情况下获得良好的结果。如果一开始你没有得到好的结果，你可以采取一些步骤来改进，但我们始终建议用户在考虑任何更改之前先使用所有默认设置进行一次训练。这有助于建立评估基准和发现需要改进的地方。

模型选择

类似于YOLOv5x和YOLOv5x6的大型模型在几乎所有情况下都会产生更好的结果，但参数更多，需要更多的CUDA内存进行训练，运行速度较慢。

对于移动部署，我们推荐YOLOv5s/m，对于云部署，我们建议YOLOV5l/x。

（有关所有模型的完整比较）

从预先训练的权重开始训练。建议用于中小型数据集（即VOC、VisDrone、GlobalWheat）。将模型的名称传递给--weights参数。模型自动从latest YOLOv5 releasse 下载。

python train.py --data custom.yaml --weights yolov5s 
                                             yolov5m 
                                             yolov5l 
                                             yolov5x 
                                             custom_pretrained # 自定义的网络结构文件

从头开始训练的话，推荐用大的数据集(即 COCO、Objects365、OIv6 )在 --cfg 选项后传递你感兴趣的网络结构文件参数以及空的 --weights '' 参数：

python train.py --data custom.yaml --weights '' --cfg yolov5s.yaml
                                                      yolov5m.yaml
                                                      yolov5l.yaml
                                                      yolov5x.yaml

训练配置

在修改任何内容之前，首先使用默认设置进行训练，以建立性能基线。训练参数的完整列表,能够在train.py文件中发现。

Epochs : 默认训练300个epochs。如果早期过拟合，则可以减少训练。如果在300个周期后未发生过拟合，则可以训练更长，比如600、1200个epochs。
Image size: COCO以 --img 640,的分辨率进行训练，但由于数据集中有大量的小对象，它可以从更高分辨率（如--img 1280）的训练中训练。如果有许多小对象，则自定义数据集将从更高分辨率的训练中获益。最好的推断结果是在相同的--img 处获得的，即如果在-img 1280处进行训练，也应该在--img 1280处进行测试和检测。
Batch Size: 使用更大的 --batch-size 。能够有效缓解小样本数产生的batchnorm统计的错误。
Hyperparameters：默认超参数在hyp.scratch-low.yaml文件中。我们建议你在考虑修改任何超参数之前，先使用默认超参数进行训练。一般来说，增加增强超参数将减少和延迟过度拟合，允许更长的训练和得到更高mAP值。减少损耗分量增益超参数，如hyp['obj']，将有助于减少这些特定损耗分量中的过度拟合。有关优化这些超参数的自动化方法，请参阅我们的《超参数演化教程》。
...更多训练的超参数配置请查看本文的附录。

8 拓展

使用多机训练

这仅适用于多GPU分布式数据并行训练。

在训练之前，确保所有机器上的文件都相同，数据集、代码库等。之后，确保机器可以相互通信。

你必须选择一台主机器（其他机器将与之对话）。记下它的地址（master_addr）并选择一个端口（master-port）。对于下面的示例，将使用master_addr=192.168.1.1和master_ port=1234。

要使用它，可以执行以下指令：

# On master machine 0
$ python -m oneflow.distributed.launch --nproc_per_node G --nnodes N --node_rank 0 --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''

# On machine R
$ python -m oneflow.distributed.launch --nproc_per_node G --nnodes N --node_rank R --master_addr "192.168.1.1" --master_port 1234 train.py --batch 64 --data coco.yaml --cfg yolov5s.yaml --weights ''

其中G是每台机器的GPU数量，N是机器数量，R是从0到（N-1）的机器数量。

假设我有两台机器，每台机器有两个GPU，对于上面的情况，G=2，N=2，R=1。

在连接所有N台机器之前，训练不会开始。输出将仅显示在主机上！

‍

注意：

oneflow目前不支持windows平台
--batch 必须是GPU数量的倍数。
GPU 0 将比其他GPU占用略多的内存，因为它维护EMA并负责检查点等。
如果你得到 RuntimeError: Address already in use ，可能是因为你一次正在运行多个训练程序。要解决这个问题，只需通过添加--master_port来使用不同的端口号，如下所示

$ python -m oneflow.distributed.launch --master_port 1234 --nproc_per_node 2 ...

配置代码

# prepare
t=https://github.com/Oneflow-Inc/one-yolov5:latest && sudo docker pull $t && sudo docker run -it --ipc=host --gpus all -v "$(pwd)"/coco:/usr/src/coco $t
pip install --pre oneflow -f https://staging.oneflow.info/branch/master/cu112
cd .. && rm -rf app && git clone https://github.com/Oneflow-Inc/one-yolov5 -b master app && cd app
cp data/coco.yaml data/coco_profile.yaml

# profile
python train.py --batch-size 16 --data coco_profile.yaml --weights yolov5l  --epochs 1 --device 0 
python -m oneflow.distributed.launch --nproc_per_node 2 train.py --batch-size 32 --data coco_profile.yaml --weights yolov5l  --epochs 1 --device 0,1   
python -m oneflow.distributed.launch --nproc_per_node 4 train.py --batch-size 64 --data coco_profile.yaml --weights yolov5l  --epochs 1 --device 0,1,2,3  
python -m oneflow.distributed.launch --nproc_per_node 8 train.py --batch-size 128 --data coco_profile.yaml --weights yolov5l  --epochs 1 --device 0,1,2,3,4,5,6,7

附件

train.py参数解析表

参数	help	帮助
--weight	initial weights path	加载的权重文件路径
--cfg	model.yaml path	模型配置文件，网络结构路径
--data	dataset.yaml path	数据集配置文件，数据集路径
--hyp	hyperparameters path	超参数文件路径
--epochs	Total training rounds	训练总轮次
--batch-size	total batch size for all GPUs, -1 for autobatch	一次训练所选取的样本数
--imgsz	train, val image size (pixels)	输入图片分辨率大小
--rect	rectangular training	是否采用矩形训练，默认False
--resume	resume most recent training	接着打断训练上次的结果接着训练
--nosave	only save final checkpoint	只保存最终的模型，默认False
--noautoanchor	disable AutoAnchor	不自动调整anchor，默认False
--noplots	save no plot files	不保存打印文件，默认False
--evolve	evolve hyperparameters for x generations	是否进行超参数进化，默认False
--bucket	gsutil bucket	谷歌云盘bucket，一般不会用到
--cache	--cache images in "ram" (default) or "disk"	是否提前缓存图片到内存，以加快训练速度，默认False
--device	cuda device, i.e. 0 or 0,1,2,3 or cpu	训练的设备，cpu；0(表示一个gpu设备cuda:0)；0,1,2,3(多个gpu设备)
--multi-scale	vary img-size +/- 50%%	是否进行多尺度训练，默认False
--single-cls	train multi-class data as single-class	数据集是否只有一个类别，默认False
--optimizer	optimizer	优化器
--sync-bn	use SyncBatchNorm, only available in DDP mode	是否使用跨卡同步BN,在DDP模式使用
--workers	max dataloader workers (per RANK in DDP mode)	dataloader的最大worker数量
--project	save to project path	保存到项目结果地址
--name	save to project/name/	保存到项目结果/名称
--exist-ok	existing project/name ok, do not increment	现有项目/名称确定，不递增，默认False
--quad	quad dataloader	四元数据加载器开启之后在尺寸大于640的图像上识别效果更好，但是有可能会使在640尺寸的图片上效果更差
--cos-lr	cosine LR scheduler	是否采用退火余弦学习率，默认False
--label-smoothing	Label smoothing epsilon	标签平滑
--patience	EarlyStopping patience (epochs without improvement)	早停机制，默认False
--freez	Freeze layers: backbone=10, first3=0 1 2	冻结层数，默认不冻结
--save-period	Save checkpoint every x epochs (disabled if < 1)	用于记录训练日志信息，int 型，默认 -1
--seed	Global training seed	随机数种子设置
--local_rank	Automatic DDP Multi-GPU argument, do not modify	自动单机多卡训练一般不改动

Reference

https://github.com/ultralytics/yolov5/wiki/Train-Custom-Data
https://docs.ultralytics.com/quick-start/

其他人都在看

欢迎Star、试用OneFlow新版本：GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient. - GitHub - Oneflow-Inc/oneflow: OneFlow is a deep learning framework designed to be user-friendly, scalable and efficient.https://github.com/Oneflow-Inc/oneflow/

Disable checkingPremium suggestions

详解训练 xff0c xff td YOLO 深度学习人工智能目标检测计算机视觉

有关YOLOv5全面解析教程⑥：模型训练流程详解的更多相关文章

Ruby 解析字符串 - 2
我有一个字符串input="maybe(thisis|thatwas)some((nice|ugly)(day|night)|(strange(weather|time)))"Ruby中解析该字符串的最佳方法是什么？我的意思是脚本应该能够像这样构建句子:maybethisissomeuglynightmaybethatwassomenicenightmaybethiswassomestrangetime等等，你明白了......我应该一个字符一个字符地读取字符串并构建一个带有堆栈的状态机来存储括号值以供以后计算，还是有更好的方法？也许为此目的准备了一个开箱即用的库？
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby - 用逗号、双引号和编码解析 csv - 2
我正在使用ruby1.9解析以下带有MacRoman字符的csv文件#encoding:ISO-8859-1#csv_parse.csvName,main-dialogue"Marceu","Giveittohimóhe,hiswife."我做了以下解析。require'csv'input_string=File.read("../csv_parse.rb").force_encoding("ISO-8859-1").encode("UTF-8")#=>"Name,main-dialogue\r\n\"Marceu\",\"Giveittohim\x97he,hiswife.\"\
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs