草庐IT

YOLOv8 从环境搭建到推理训练

河伯187 2023-07-11 原文

0、引言

硬件配置:使用Mobaxterm_personal_21.4远程操控3060服务器(Linux系统),CUDA版本11.7。

使用anaconda作为python环境环境,python为3.8版本。(最好使用3.8版本)

本文最终安装的pytorch版本1.13.1torchvision版本是0.14.1,其他的依赖库按照requirements.txt文件安装即可。

YOLOv8创新点:🍺🍺🍺

1😃Backbone。使用的依旧是CSP的思想,不过YOLOv5中的C3模块被替换成了C2f模块,实现了进一步的轻量化,同时YOLOv8依旧使用了YOLOv5等架构中使用的SPPF模块;

2😁PAN-FPN。毫无疑问YOLOv8依旧使用了PAN的思想,不过通过对比YOLOv5与YOLOv8的结构图可以看到,YOLOv8将YOLOv5中PAN-FPN上采样阶段中的卷积结构删除了,同时也将C3模块替换为了C2f模块

3😑Decoupled-Head。是不是嗅到了不一样的味道?是的,YOLOv8走向了Decoupled-Head;

4😂Anchor-Free。YOLOv8抛弃了以往的Anchor-Base,使用了Anchor-Free的思想;

5😊损失函数。YOLOv8使用VFL Loss作为分类损失,使用DFL Loss+CIOU Loss作为分类损失;

6😚样本匹配。YOLOv8抛弃了以往的IOU匹配或者单边比例的分配方式,而是使用了Task-Aligned Assigner匹配方式。

1、代码下载

代码连接:

https://github.com/ultralytics/ultralytics

权重连接:

https://github.com/ultralytics/assets/releases

先睹为快:

下载:点击右上角的绿色Code按钮,再点击Download,即可完成代码下载。下载之后导入到服务器端解压。

解压之后如下图所示。

2、环境准备

2.1创建新环境

启动远程软件,进入base环境,创建新环境yolov8。

conda create -n yolov8 python=3.8

激活新环境yolov8。

conda activate yolov8

2.2安装依赖(各种第三方库)

运行requirements.txt文件即可完成对所有库的安装,包括pytorch等众多第三方库。

运行该文件需要先进入到该文件所在的文件夹:cd 各层文件夹。进入所在文件夹之后再运行该文件。

pip install -r requirements.txt -i https://mirrors.bfsu.edu.cn/pypi/web/simple/

2.3安装ultralytics

ultralytics集成了yolo的各种包以及模型等,程序中直接调用。

pip install ultralytics

2.4手动下载权重

虽然在(2)中可以自动下载yolov8n.pt,但是经常打不开,所以给出手动下载连接。

下载链接:https://github.com/ultralytics/assets/releases/download/v0.0.0/yolov8n.pt

位置:拷到yolov8\ultralytics-main\ultralytics\yolo\v8\detect\yolov8n.pt

3、测试运行

操作:首先进入到yolov8\ultralytics-main\ultralytics\yolo\v8\detect\predict.py,运行predict.py

python predict.py

完成测试:

查看结果:

4、训练自己的数据

4.1数据准备

由于本文的实验是进行图像检测,故将数据集放在detect目录下。

操作:在detect文件下新建mydata_tuomin文件夹(可自定义),再在mydata_tuomin目录下新建Annotations, images, ImageSets, labels 四个文件夹。

📌Annotations目录下存放图片的xml文件

📌images目录下存放数据集的图片文件

📌ImageSets 目录之后会在Main文件夹内自动生成train.txt,val.txt,test.txt和trainval.txt四个文件

📌labels目录下存放xml文件转换后的txt标准格式标签

4.2按比例划分数据集

操作:在detect目录下新建一个文件splitDataset.py,运行。

作用:随机分配训练/验证/测试集图片,会在ImageSet 目录下生成四个txt文件,存放训练集、验证集、测试集的划分文件(各集合包含的图片)。

代码如下所示:

import os
import random

trainval_percent = 0.9
train_percent = 0.9
xmlfilepath = 'mydata_tuomin/Annotations'
txtsavepath = 'mydata_tuomin/ImageSets'
total_xml = os.listdir(xmlfilepath)

num = len(total_xml)
list = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list, tv)
train = random.sample(trainval, tr)

ftrainval = open('mydata_tuomin/ImageSets/trainval.txt', 'w')
ftest = open('mydata_tuomin/ImageSets/test.txt', 'w')
ftrain = open('mydata_tuomin/ImageSets/train.txt', 'w')
fval = open('mydata_tuomin/ImageSets/val.txt', 'w')

for i in list:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        ftrainval.write(name)
        if i in train:
            ftrain.write(name)
        else:
            fval.write(name)
    else:
        ftest.write(name)

ftrainval.close()
ftrain.close()
fval.close()
ftest.close()

查看结果:

4.3标签格式转换

由于yolov8使用的labels是txt格式的文件,故需将原始数据集xml格式的标签转换为txt格式。

即将每个xml标注提取box信息为txt格式,每个图像对应一个txt文件,文件每一行为一个目标的信息,包括class, x_center, y_center, width, height格式。

操作:在detect目录下新建一个文件XML2TXT.py,运行。

📌注意代码第11行,classes = ['…']一定需要填写自己数据集的类别,在这里我是三个类别'greenplate','blueplate','face'。

📌如果数据集中的类别不知道或者比较多不想手敲,可以使用4.4中的脚本直接获取类别,如果不需要可以直接跳过4.4。

结果:生成的标签存放在labels目录下,并且在mydata_tuomin目录下生成三个txt文件,文件内是训练集、验证集、测试集的图片路径。

代码如下:

# -*- coding: utf-8 -*-
# xml解析包
import xml.etree.ElementTree as ET
import pickle
import os
from os import listdir, getcwd
from os.path import join


sets = ['train', 'test', 'val']
classes = ['greenplate','blueplate','face']


# 进行归一化操作
def convert(size, box): # size:(原图w,原图h) , box:(xmin,xmax,ymin,ymax)
    dw = 1./size[0]     # 1/w
    dh = 1./size[1]     # 1/h
    x = (box[0] + box[1])/2.0   # 物体在图中的中心点x坐标
    y = (box[2] + box[3])/2.0   # 物体在图中的中心点y坐标
    w = box[1] - box[0]         # 物体实际像素宽度
    h = box[3] - box[2]         # 物体实际像素高度
    x = x*dw    # 物体中心点x的坐标比(相当于 x/原图w)
    w = w*dw    # 物体宽度的宽度比(相当于 w/原图w)
    y = y*dh    # 物体中心点y的坐标比(相当于 y/原图h)
    h = h*dh    # 物体宽度的宽度比(相当于 h/原图h)
    return (x, y, w, h)    # 返回 相对于原图的物体中心点的x坐标比,y坐标比,宽度比,高度比,取值范围[0-1]


# year ='2012', 对应图片的id(文件名)
def convert_annotation(image_id):
  
    # 对应的通过year 找到相应的文件夹,并且打开相应image_id的xml文件,其对应bund文件
    in_file = open('mydata_tuomin/Annotations/%s.xml' % (image_id), encoding='utf-8')
    # 准备在对应的image_id 中写入对应的label,分别为
    # <object-class> <x> <y> <width> <height>
    out_file = open('mydata_tuomin/labels/%s.txt' % (image_id), 'w', encoding='utf-8')
    # 解析xml文件
    tree = ET.parse(in_file)
    # 获得对应的键值对
    root = tree.getroot()
    # 获得图片的尺寸大小
    size = root.find('size')
    # 如果xml内的标记为空,增加判断条件
    if size != None:
        # 获得宽
        w = int(size.find('width').text)
        # 获得高
        h = int(size.find('height').text)
        # 遍历目标obj
        for obj in root.iter('object'):
            # 获得difficult ??
            difficult = obj.find('difficult').text
            # 获得类别 =string 类型
            cls = obj.find('name').text
            # 如果类别不是对应在我们预定好的class文件中,或difficult==1则跳过
            if cls not in classes or int(difficult) == 1:
                continue
            # 通过类别名称找到id
            cls_id = classes.index(cls)
            # 找到bndbox 对象
            xmlbox = obj.find('bndbox')
            # 获取对应的bndbox的数组 = ['xmin','xmax','ymin','ymax']
            b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
                 float(xmlbox.find('ymax').text))
            print(image_id, cls, b)
            # 带入进行归一化操作
            # w = 宽, h = 高, b= bndbox的数组 = ['xmin','xmax','ymin','ymax']
            bb = convert((w, h), b)
            # bb 对应的是归一化后的(x,y,w,h)
            # 生成 calss x y w h 在label文件中
            out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')


# 返回当前工作目录
wd = getcwd()
print(wd)


for image_set in sets:
    
    # 先找labels文件夹如果不存在则创建
    if not os.path.exists('mydata_tuomin/labels/'):
        os.makedirs('mydata_tuomin/labels/')
    # 读取在ImageSets/Main 中的train、test..等文件的内容
    # 包含对应的文件名称
    image_ids = open('mydata_tuomin/ImageSets/%s.txt' % (image_set)).read().strip().split()
    # 打开对应的2012_train.txt 文件对其进行写入准备
    list_file = open('mydata_tuomin/%s.txt' % (image_set), 'w')
    # 将对应的文件_id以及全路径写进去并换行
    for image_id in image_ids:
        list_file.write('mydata_tuomin/images/%s.jpg\n' % (image_id))
        # 调用  year = 年份  image_id = 对应的文件名_id
        convert_annotation(image_id)
    # 关闭文件
    list_file.close()

4.4查看自己的数据集标签类别

操作:在detect目录下新建一个文件ViewCategory.py,运行。

代码如下:(文件路径也可以使用绝对路径)

# coding=gbk
import xml.dom.minidom as xmldom
import os

#voc数据集获取所有标签的所有类别数"
annotation_path="/mydata_tuomin/Annotations/"

annotation_names=[os.path.join(annotation_path,i) for i in os.listdir(annotation_path)]

labels = list()
for names in annotation_names:
    xmlfilepath = names
    domobj = xmldom.parse(xmlfilepath)
    # 得到元素对象
    elementobj = domobj.documentElement
    #获得子标签
    subElementObj = elementobj.getElementsByTagName("object")
    for s in subElementObj:
        label=s.getElementsByTagName("name")[0].firstChild.data
        #print(label)
        if label not in labels:
            labels.append(label)
print(labels)

4.5创建数据加载配置文件

操作:在mydata_tuomin文件夹下新建一个tuomin.yaml文件(可以自定义命名),用来存放训练集、验证集、测试集的路径文件(train.txt、val.txt、test.txt),以上三个文件是在步骤4.3中生成的路径文件(存放在mydata_tuomin目录下),然后是目标的类别数目和具体类别列表。

代码如下:❗❗❗注意txt需要使用绝对路径。

train: /home/xxxxxx/Yolov8/ultralyticsmain/ultralytics/yolo/v8/detect/mydata_tuomin/train.txt
val: /home/xxxxxx/Yolov8/ultralyticsmain/ultralytics/yolo/v8/detect/mydata_tuomin/val.txt
test: /home/xxxxxx/Yolov8/ultralyticsmain/ultralytics/yolo/v8/detect/mydata_tuomin/test.txt

# number of classes
nc: 3

# class names
names: ['greenplate', 'blueplate', 'face']

4.6选择模型

在ultralytics/models/v8/目录下是模型的配置文件,提供了n、s、m、l、x版本,逐渐增大(随着架构的增大,训练时间也是逐渐增大),五种模型对比图如下所示。

操作:本文限于硬件配置,采用yolov8s.yaml,接下来只用修改一个参数,把nc改成自己的类别数

代码如下:

# Ultralytics YOLO 馃殌, GPL-3.0 license

# Parameters
nc: 3  # number of classes(只需要改这里!!!!!!!)
depth_multiple: 0.33  # scales module repeats
width_multiple: 0.50  # scales convolution channels

# YOLOv8.0s backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]]  # 9

# YOLOv8.0s head
head:
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 13

  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 17 (P3/8-small)

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 20 (P4/16-medium)

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 23 (P5/32-large)

  - [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

4.7开始训练

输入如下命令开始训练。

yolo task=detect mode=train model=yolov8s.yaml data=mydata_tuomin/tuomin.yaml epochs=100 batch=4

以上参数解释如下:

📌task:选择任务类型,可选['detect', 'segment', 'classify', 'init']。

📌mode: 选择是训练、验证还是预测的任务蕾西 可选['train', 'val', 'predict']。

📌model: 选择yolov8不同的模型配置文件,可选yolov8s.yaml、yolov8m.yaml、yolov8x.yaml等。

📌data: 选择生成的数据集配置文件

📌epochs:指的就是训练过程中整个数据集将被迭代多少次,显卡不行你就调小点。

📌batch:一次看完多少张图片才进行权重更新,梯度下降的mini-batch,显卡不行你就调小点。

查看训练过程:

查看结果:

有关YOLOv8 从环境搭建到推理训练的更多相关文章

  1. ruby-on-rails - 在 Rails 开发环境中为 .ogv 文件设置 Mime 类型 - 2

    我正在玩HTML5视频并且在ERB中有以下片段:mp4视频从在我的开发环境中运行的服务器很好地流式传输到chrome。然而firefox显示带有海报图像的视频播放器,但带有一个大X。问题似乎是mongrel不确定ogv扩展的mime类型,并且只返回text/plain,如curl所示:$curl-Ihttp://0.0.0.0:3000/pr6.ogvHTTP/1.1200OKConnection:closeDate:Mon,19Apr201012:33:50GMTLast-Modified:Sun,18Apr201012:46:07GMTContent-Type:text/plain

  2. Vscode+Cmake配置并运行opencv环境(Windows和Ubuntu大同小异) - 2

    之前在培训新生的时候,windows环境下配置opencv环境一直教的都是网上主流的vsstudio配置属性表,但是这个似乎对新生来说难度略高(虽然个人觉得完全是他们自己的问题),加之暑假之后对cmake实在是爱不释手,且这样配置确实十分简单(其实都不需要配置),故斗胆妄言vscode下配置CV之法。其实极为简单,图比较多所以很长。如果你看此文还配不好,你应该思考一下是不是自己的问题。闲话少说,直接开始。0.CMkae简介有的人到大二了都不知道cmake是什么,我不说是谁。CMake是一个开源免费并且跨平台的构建工具,可以用简单的语句来描述所有平台的编译过程。它能够根据当前所在平台输出对应的m

  3. ruby-on-rails - ruby gem如何在rails环境下工作 - 2

    我试图在rails中了解rubygems是如何变得可以自动使用的,而不是在使用required的文件中gem? 最佳答案 这是通过bundler/setup完成的:http://bundler.io/v1.3/bundler_setup.html.它在您的config/boot.rb文件中是必需的。简而言之,它首先将环境变量设置为指向您的Gemfile:ENV['BUNDLE_GEMFILE']||=File.expand_path('../../Gemfile',__FILE__)然后它通过要求bundler/setup将所有ge

  4. ruby-on-rails - 我需要一个真正的 UNIX RoR 开发环境 - 2

    从一开始,我就是一个Windows高手。我从MS-DOS开始。我安装了Windows2.1以及此后的所有Windows。现在,我家里有10台不同的Windows机器在运行,从Windows7Ultimate到各种版本的WindowsServer。我还没有完成Windows8,也不想去那里。我在服务器和各种软件方面都有UNIX经验,但它并不是我的首选环境。但是,我想我正在转换。我试图假装使用Cygwin和MSYS在Windows下运行UNIX。我的目的是搭建一个开发环境。两者都让我失望了。我花了比开发更多的时间来解决一系列技术问题。这是NotAcceptable。到目前为止,我的Ruby

  5. ruby-on-rails - 如果特定语言环境中缺少翻译,如何配置 i18n 以使用 en 语言环境? - 2

    如果特定语言环境中缺少翻译,如何配置i18n以使用en语言环境翻译?当前已插入翻译缺失消息。我正在使用RoR3.1。 最佳答案 找到相似的question这里是答案:#application.rb#railswillfallbacktoconfig.i18n.default_localetranslationconfig.i18n.fallbacks=true#railswillfallbacktoen,nomatterwhatissetasconfig.i18n.default_localeconfig.i18n.fallback

  6. ruby-on-rails - 可移植 Ruby on Rails 环境 - 2

    我给自己买了一个新的8gigUSBkey,我正在寻找一个合适的解决方案来拥有一个可移植RoR环境来学习。我在谷歌上搜索了一下,发现了一些可能性,但我很想听听一些现实生活中的经历和意见。谢谢! 最佳答案 我喜欢InstantRails,非常容易使用,无需安装程序,也不会修改您的系统环境。 关于ruby-on-rails-可移植RubyonRails环境,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/q

  7. ruby-on-rails - 如何通过 URL 更改语言环境? - 2

    在我的双语Rails4应用程序中,我有一个像这样的LocalesController:classLocalesController用户可以通过此表单更改其语言环境:deflocale_switcherform_tagurl_for(:controller=>'locales',:action=>'change_locale'),:method=>'get',:id=>'locale_switcher'doselect_tag'set_locale',options_for_select(LANGUAGES,I18n.locale.to_s)end这有效。但是,目前用户无法通过URL更改

  8. ruby - 从 FaSTLane 将环境变量传递给 shell 脚本 - 2

    我在跑Fastlane(适用于iOS的持续构建工具)以执行用于解密文件的自定义shell脚本。这是命令。sh"./decrypt.shENV['ENCRYPTION_P12']"我想不出将环境变量传递给该脚本的方法。显然,如果我将密码硬编码到脚本中,它就可以正常工作。sh"./decrypt.shmypwd"有什么建议吗? 最佳答案 从直接Shell中扩展假设这里的sh是一个faSTLane命令,它以给定的参数作为脚本文本调用shell命令:#asafastlanedirectivesh'./decrypt.sh"$ENCRYPTI

  9. 【自动驾驶环境感知项目】——基于Paddle3D的点云障碍物检测 - 2

    文章目录1.自动驾驶实战:基于Paddle3D的点云障碍物检测1.1环境信息1.2准备点云数据1.3安装Paddle3D1.4模型训练1.5模型评估1.6模型导出1.7模型部署效果附录show_lidar_pred_on_image.py1.自动驾驶实战:基于Paddle3D的点云障碍物检测项目地址——自动驾驶实战:基于Paddle3D的点云障碍物检测课程地址——自动驾驶感知系统揭秘1.1环境信息硬件信息CPU:2核AI加速卡:v100总显存:16GB总内存:16GB总硬盘:100GB环境配置Python:3.7.4框架信息框架版本:PaddlePaddle2.4.0(项目默认框架版本为2.3

  10. ruby-on-rails - 如何在多个环境中处理 OmniAuth 回调? - 2

    我有一个应用程序专门使用Facebook作为身份验证提供程序,并正确设置了生产模式的回调。为了让它工作,您需要为您的Facebook应用程序提供一个站点URL和一个用于回调的站点域,在我的例子中是http://appname.heroku.com和appname。heroku.com分别。问题是我的Controller设置为只允许经过身份验证的session,所以我无法在开发模式下查看我的应用程序,因为Facebook应用程序的域显然没有设置为本地主机。如何在不更改Facebook设置的情况下解决这个问题? 最佳答案 创建另一个域l

随机推荐