论文复现｜Panoptic Deeplab(全景分割PyTorch)

华为云开发者社区 2023-03-28 原文

摘要：这是发表于CVPR 2020的一篇论文的复现模型。

本文分享自华为云社区《Panoptic Deeplab(全景分割PyTorch)》，作者：HWCloudAI 。

这是发表于CVPR 2020的一篇论文的复现模型，B. Cheng et al, “Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation”, CVPR 2020，此模型在原论文的基础上，使用HRNet作为backbone，得到了高于原论文的精度，PQ达到了63.7%，mIoU达到了80.3%，AP达到了37.3%。该算法会载入Cityscapes上的预训练模型（HRNet），我们提供了训练代码和可用于训练的模型，用于实际场景的微调训练。训练后生成的模型可直接在ModelArts平台部署成在线服务。

具体算法介绍：https://marketplace.huaweicloud.com/markets/aihub/modelhub/detail/?id=33d3239f-8f0b-4432-a842-f787662ed6a0

注意事项：

1.本案例使用框架:PyTorch1.4.0

2.本案例使用硬件:GPU: 1*NVIDIA-V100NV32(32GB) | CPU: 8 核 64GB

3.运行代码方法: 点击本页面顶部菜单栏的三角形运行按钮或按Ctrl+Enter键运行每个方块中的代码

4.JupyterLab的详细用法: 请参考《ModelAtrs JupyterLab使用指导》

5.碰到问题的解决办法: 请参考《ModelAtrs JupyterLab常见问题解决办法》

1.下载数据和代码

运行下面代码，进行数据和代码的下载

本案例使用cityscapes数据集。

import os
import moxing as mox
# 数据代码下载
mox.file.copy_parallel('s3://obs-aigallery-zc/algorithm/panoptic-deeplab','./panoptic-deeplab')

2.模型训练

2.1依赖库加载

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
from __future__ import print_function
import os
root_path = './panoptic-deeplab/'
os.chdir(root_path)
# 获取当前目录结构信息，以便进行代码调试
print('os.getcwd():', os.getcwd())
import time
import argparse
import time
import datetime
import math
import sys
import shutil
import moxing as mox # ModelArts上专用的moxing模块，可用于与OBS的数据交互，API文档请查看：https://github.com/huaweicloud/ModelArts-Lab/tree/master/docs/moxing_api_doc
from PIL import ImageFile
ImageFile.LOAD_TRUNCATED_IMAGES = True

2.2训练参数设置

parser = argparse.ArgumentParser(description='Panoptic Deeplab')
parser.add_argument('--training_dataset', default='/home/ma-user/work/panoptic-deeplab/', help='Training dataset directory') # 在ModelArts中创建算法时，必须进行输入路径映射配置，输入映射路径的前缀必须是/home/work/modelarts/inputs/，作用是在启动训练时，将OBS的数据拷贝到这个本地路径中供本地代码使用。
parser.add_argument('--train_url', default='./output', help='the path to save training outputs') # 在ModelArts中创建训练作业时，必须指定OBS上的一个训练输出位置，训练结束时，会将输出映射路径拷贝到该位置
parser.add_argument('--num_gpus',  default=1, type=int, help='num of GPUs to train')
parser.add_argument('--eval', default='False', help='whether to eval')
parser.add_argument('--load_weight', default='trained_model/model/model_final.pth',type=str) # obs路径 断点模型 pth文件 如果是评估 则是相对于src的路径
parser.add_argument('--iteration', default=100, type=int)
parser.add_argument('--learning_rate', default=0.001, type=float)
parser.add_argument('--ims_per_batch', default=8, type=int)
args, unknown = parser.parse_known_args() # 必须将parse_args改成parse_known_args，因为在ModelArts训练作业中运行时平台会传入一个额外的init_method的参数
# dir
fname = os.getcwd()
project_dir = os.path.join(fname, "panoptic-deeplab")
detectron2_dir = os.path.join(fname, "detectron2-0.3+cu102-cp36-cp36m-linux_x86_64.whl")
panopticapi_dir = os.path.join(fname, "panopticapi-0.1-py3-none-any.whl")
cityscapesscripts_dir = os.path.join(fname, "cityscapesScripts-2.1.7-py3-none-any.whl")
requirements_dir = os.path.join(project_dir, "requirements.txt") 
output_dir = "/home/work/modelarts/outputs/train_output" 
# config strings
evalpath = ''
MAX_ITER = 'SOLVER.MAX_ITER ' + str(args.iteration+90000)
BASE_LR = 'SOLVER.BASE_LR ' + str(args.learning_rate)
IMS_PER_BATCH = 'SOLVER.IMS_PER_BATCH ' + str(args.ims_per_batch)
SCRIPT_PATH = os.path.join(project_dir, "tools_d2/train_panoptic_deeplab.py") 
CONFIG_PATH = os.path.join(fname, "configs/config.yaml")
CONFIG_CMD = '--config-file ' + CONFIG_PATH
EVAL_CMD = ''
GPU_CMD = ''
OPTS_CMD = MAX_ITER + ' ' + BASE_LR + ' ' + IMS_PER_BATCH
RESUME_CMD = ''
#functions
def merge_cmd(scirpt_path, config_cmd, gpu_cmd, eval_cmd, resume_cmd, opts_cmd):
 return "python " + scirpt_path + " "+ config_cmd + " " + gpu_cmd + " " + eval_cmd + " " + resume_cmd + " " + OPTS_CMD
if args.eval == 'True':
 assert args.load_weight, 'load_weight empty when trying to evaluate' # 如果评估时为空，则报错
 if args.load_weight != 'trained_model/model/model_final.pth':
 #将model拷贝到本地，并获取模型路径
 modelpath, modelname = os.path.split(args.load_weight)
 mox.file.copy_parallel(args.load_weight, os.path.join(fname, modelname))
 evalpath = os.path.join(fname,modelname)
 else:
 evalpath = os.path.join(fname,'trained_model/model/model_final.pth')
    EVAL_CMD = '--eval-only MODEL.WEIGHTS ' + evalpath
else:
    GPU_CMD = '--num-gpus ' + str(args.num_gpus)
 if args.load_weight:
        RESUME_CMD = '--resume'
 if args.load_weight != 'trained_model/model/model_final.pth':
 modelpath, modelname = os.path.split(args.load_weight)
 mox.file.copy_parallel(args.load_weight, os.path.join('/cache',modelname))
 with open('/cache/last_checkpoint','w') as f: #创建last_checkpoint文件
 f.write(modelname)
 f.close()
 else:
 os.system('cp ' + os.path.join(fname, 'trained_model/model/model_final.pth') + ' /cache/model_final.pth')
 with open('/cache/last_checkpoint','w') as f: #创建last_checkpoint文件
 f.write('model_final.pth')
 f.close()
os.environ['DETECTRON2_DATASETS'] = args.training_dataset #添加数据库路径环境变量
cmd = merge_cmd(SCRIPT_PATH, CONFIG_CMD, GPU_CMD, EVAL_CMD, RESUME_CMD, OPTS_CMD)
# os.system('mkdir -p ' + args.train_url)
print('*********Train Information*********')
print('Run Command: ' + cmd)
print('Num of GPUs: ' + str(args.num_gpus))
print('Evaluation: ' + args.eval)
if args.load_weight:
 print('Load Weight: ' + args.load_weight)
else:
 print('Load Weight: None (train from scratch)')
print('Iteration: ' + str(args.iteration))
print('Learning Rate: ' + str(args.learning_rate))
print('Images Per Batch: ' + str(args.ims_per_batch))

2.3安装依赖库

安装依赖库需要几分钟，请耐心等待

def install_dependecies(r,d, p, c):
 os.system('pip uninstall pytorch> out1.txt')
 os.system('pip install  torch==1.7.0> out2.txt')
 os.system('pip install --upgrade pip')
 os.system('pip install --upgrade numpy')
 os.system('pip install torchvision==1.7.0> out3.txt')
 os.system('pip install pydot')
 os.system('pip install --upgrade pycocotools')
 os.system('pip install tensorboard')
 os.system('pip install -r ' + r + ' --ignore-installed PyYAML') 
 os.system('pip install ' + d) 
 os.system('pip install ' + p)
 os.system('pip install ' + c)
 os.system('pip install pyyaml ==5.1.0')
# 安装依赖
print('*********Installing Dependencies*********')
install_dependecies(requirements_dir,detectron2_dir, panopticapi_dir, cityscapesscripts_dir)
*********Installing Dependencies*********

2.4开始训练

print('*********Training Begin*********')
print(cmd)
start = time.time()
ret = os.system(cmd+ " >out.txt")
if ret == 0:
 print("success")
else:
 print('fail')
end_time=time.time()
print('done')
print(end_time-start)
if args.eval == 'False':
 os.system('mv /cache/model_final.pth ' + os.path.join(fname, 'output/model_final.pth')) #/cache模型移动到输出文件夹
if os.path.exists(os.path.join(fname, 'pred_results')):
 os.system('mv ' + os.path.join(fname, 'pred_results') + ' ' + args.train_url)

训练完成之后，可以在out.txt中看运行日志
在./panoptic-deeplab/output/pred_results/文件目录下，有该模型全景分割，实例分割，语义分割的评估结果

3.模型测试

3.1加载测试函数

from test import *

3.2开始预测

if __name__ == '__main__':
 img_path = r'/home/ma-user/work/panoptic-deeplab/cityscapes/leftImg8bit/val/frankfurt/frankfurt_000000_003920_leftImg8bit.png' # TODO 修改测试图片路径
 model_path = r'/home/ma-user/work/panoptic-deeplab/output/model_final.pth' # TODO 修改模型路径
 my_model = ModelClass(model_path)
    result = my_model.predict(img_path)
 print(result)

点击关注，第一时间了解华为云新鲜技术~

有关论文复现｜Panoptic Deeplab(全景分割PyTorch)的更多相关文章

threejs 720/360全景工具开发心得 - 2
前言最近做了一个720全景工具，有很多开发人员觉得全景图很简单，github上也有很多全景图的源码，但当实际使用的时候会发现有很多坑，还达不到真正意义上的商用级别，下面我会把我们开发这个项目遇到的一些坑和解决方案都梳理处理，已经发布到线上https://720.h5ds.com/工具简介：H5-720全景（简称H5-720）是一款基于threejs+h5的全景图制作工具，用户可上传全景图片制作全景图，H5-720可以预设按钮，添加元素，添加热点，添加特效，添加多种交互方式，一键开启重力感应，VR眼镜支持，PC端制作后可以适配多端查看。什么是全景图？在这之前，简单的介绍下全景图，可以360度无死
micropython复现经典单片机项目（二）可视化音频频谱解析（基本搞定） - 2
本人是音乐爱好者，从小就特别喜欢那个随着音乐跳动的方框效果，就是这个：arduino上一大把对，我忍你很久了，我就想用mpy做，全网没有，行我自己研究。果然兴趣是最好的老师，我之前有篇博客专门讲音频，有兴趣的可以回顾一下。提到可视化频谱，必然绕不开fft，大学学过这玩意，当时一心玩，老师讲的一个字都么听进去，网上教程简略扫了一下，大该就是把时域转频域的工具，我大mpy居然没有fft函数，奶奶的，先放着。音频信息如何收集？第一种傻瓜式的ADC，模拟转数字，原始粗暴，第二种，I2S库，我之前博客有讲过，数据是PCM编码。然后又去学PCM编码，一学豁然开朗，舒服，以代码为例：audio_in=I2S
ruby - 用逗号将字符串分割成数组，除非逗号在引号内 - 2
给定一个Ruby数组字符串，其中一些项目在引号中包含逗号:my_string.inspect#=>"\"hey,you\",21"我怎样才能得到一个数组:["hey,you","21"] 最佳答案 Ruby标准CSV库的.parse_csv就是这样做的。require'csv'"\"hey,you\",21".parse_csv#=>["hey,you","21"] 关于ruby-用逗号将字符串分割成数组，除非逗号在引号内，我们在StackOverflow上找到一个类似的问题：
论文解读OTA: Optimal Transport Assignment for Object Detection - 2
CSDN优秀解读：https://blog.csdn.net/jiaoyangwm/article/details/1266387752021https://arxiv.org/pdf/2103.14259.pdf关键解读在目标检测中标签分配的最新进展主要寻求为每个GT对象独立定义正/负训练样本。在本文中，我们创新性地从全局的角度重新审视标签分配，并提出将分配程序制定为一个最优传输（OT）问题——优化理论中一个被充分研究的课题。具体来说，我们将每个需求方（锚框）和供应商（GT标签）的单位传输成本定义为他们的分类和回归损失加权之和。在公式化后，找到最好的分配方案即为最小传播成本解决最优传输方案，
ruby - 由两个不同的分隔符分割的字符串 - 2
我有这样的字符串'some-dasd\dasd-dasdas\dasdas-dasd-das\dsad'。我需要通过两个不同的符号'\'和'-'将字符串拆分为数组，所以我想得到数组['some','dasd','dasd','dasdas','dasdas','dasd','das','dsad']。最好的方法是什么？最佳答案 "ome-dasd\dasd-dasdas\dasdas-dasd-das\dsad".split(/\\|-/)应该可以解决问题。关于ruby-由两个不同的
Two-Stream Convolutional Networks for Action Recognition in Videos双流网络论文精读 - 2
Two-StreamConvolutionalNetworksforActionRecognitioninVideos双流网络论文精读论文：Two-StreamConvolutionalNetworksforActionRecognitioninVideos链接：https://arxiv.org/abs/1406.2199本文是深度学习应用在视频分类领域的开山之作，双流网络的意思就是使用了两个卷积神经网络，一个是SpatialstreamConvNet，一个是TemporalstreamConvNet。此前的研究者在将卷积神经网络直接应用在视频分类中时，效果并不好。作者认为可能是因为卷积神经
视频融合技术解决方案，三维全景拼接赋能平台 - 2
近年来，随着信息化时代的到来，三维全景拼接以视频监控领域为代表的智能硬件公司迅速崛起，随后全国各地在视频监控领域进行了大量的建设。但随着摄像头数量的增加，视频监控画面离散、庞杂、关联性差等诸多问题日渐凸显。如何优化现有视频技术，助力管理者或使用者有效、直观、准确地掌控现场实时动态，成为我国信息化前行路上面临的新课题。视频融合技术平台解决方案北京智汇云舟科技有限公司成立于2012年，专注于创新性的“视频孪生（实时实景数字孪生）”技术研发与应用。公司依托自研三维地理信息引擎（3DGIS），融合建筑信息模型（BIM）、视频监控（Video）、人工智能（AI）及物联网（IOT）等多种技术，并在此基础上
科研中论文常见数学符号及其含义（科研必备，建议收藏） - 2
论文常见数学符号及其含义（科研必备）返回论文和资料目录数学符号在数学领域是非常重要的。在论文中，使用数学符号可以使得论文更加简洁明了，同时也能够准确地描述各种概念和理论。在本篇博客中，我将介绍一些常见的数学符号及其含义（省去特别简单的符号），希望能够帮助读者更好地理解数学论文。高等数学∑i=1nxi\sum_{i=1}^nx_i∑i=1nxi（求和符号）：表示将x1,x2,…,xnx_1,x_2,\dots,x_nx1,x2,…,xn中的所有数相加，例如∑i=1nxi\sum_{i=1}^nx_i∑i=1nxi表示将x1,x2,…,xnx_1,x_2,\dots,x_nx1,x
论文笔记：InternImage—基于可变形卷积的视觉大模型，超越ViT视觉大模型，COCO 新纪录 64.5 mAP！ - 2
目录文章信息写在前面Background&MotivationMethodDCNV2DCNV3模型架构Experiment分类检测文章信息Title：InternImage:ExploringLarge-ScaleVisionFoundationModelswithDeformableConvolutionsPaperLink：https://arxiv.org/abs/2211.05778CodeLink：https://github.com/OpenGVLab/InternImage写在前面拿到文章之后先看了一眼在ImageNet1k上的结果，确实很高，超越了同等大小下的VAN、RepLK
手把手教你使用ChatGPT辅助写论文 - 2
ChatGPT是一款引人注目的产品，它的突破性功能在各个领域都创造了巨大的需求。仅在发布后的两个月内，就累计了超过1亿的用户。它最突出的功能是能够在几秒钟内完成各种文案创作，包括论文、歌曲、诗歌、睡前故事和散文等。与流行的观点相反，ChatGPT可以做的不仅仅是为你写一篇文章，更有用的是它如何帮助指导您的写作过程和写作方法。接下来手把手教你利用ChatGPT辅助完成写作的五种方法。1.使用ChatGPT生成论文的观点在开始写作之前，我们需要让ChatGPT帮我们充实想法，找到论文切入点。当老师布置论文时，通常会给予学生一个提示，让他们可以自由地表达和分析。这时，我们需要找到论文的角度和思路，然