使用Mask R-CNN模型实现人体关键节点标注

华为云开发者社区 2023-03-28 原文

摘要：在本案例中，我们将展示如何对基础的Mask R-CNN进行扩展，完成人体关键节点标注的任务。

本文分享自华为云社区《使用Mask R-CNN模型实现人体关键节点标注》，作者：运气男孩。

前言

ModelArts 是面向开发者的一站式 AI 开发平台，为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成，及端-边-云模型按需部署能力，帮助用户快速创建和部署模型，管理全周期 AI 工作流。

背景

Mask R-CNN是一个灵活开放的框架，可以在这个基础框架的基础上进行扩展，以完成更多的人工智能任务。在本案例中，我们将展示如何对基础的Mask R-CNN进行扩展，完成人体关键节点标注的任务。

Mask R-CNN整体架构，它的3个主要网络：

backbone网络，用于生成特征图
RPN网络，用于生成实例的位置、分类、分割(mask)信息
head网络，对位置、分类和分割(mask)信息进行训练

在head网络中，有分类、位置框和分割(mask)信息的3个分支，我们可以对head网络进行扩展，加入一个人体关键节点keypoint分支。并对其进行训练，使得我们的模型具备关键节点分析的能力。那么我们的模型结构将如下图所示：

head网络中，红色的keypionts分支为新加入的人体关键节点分支

MaskRCNN模型的解析可以参考此文章。

本案例的运行环境是 TensorFlow 1.8.0 。

keypoints分支

在RPN中，我们生成Proposal后，当检测到Proposal的分类为"Person"时，对每个部位的关键点生成一个one-hot掩码，训练的目标最终是得到一个56*56的二值掩码，当中只有一个像素被标记为关键点，其余像素均为背景。对于每一个关键点的位置，进行最小化平均交叉熵损失检测，K个关键点是被独立处理的。

人体姿态检测中，人本身可以作为一个目标实例进行分类检测。但是，采取了one-hot编码以后，就可以扩展到coco数据集中被标注的17个人体关键点（例如：左眼、右耳），同时也能够处理非连续型数值特征。

COCO数据集中，对人体中17个关键点进行了标注，包括：鼻子,左眼,右眼,左耳,右耳,左肩,右肩,左肘,右肘,左手腕,右手腕,左膝盖,右膝盖,左脚踝,右脚踝,左小腿,右小腿，如下图所示：

基础环境准备

在使用 ModelArts 进行 AI 开发前，需先完成以下基础操作哦（如有已完成部分，请忽略），主要分为4步（注册–>实名认证–>服务授权–>领代金券）：

1、使用手机号注册华为云账号：点击注册

2、点此去完成实名认证，账号类型选"个人"，个人认证类型推荐使用"扫码认证"。

3、点击进入 ModelArts 控制台数据管理页面，上方会提示访问授权，点击【服务授权】按钮，按下图顺序操作：

4、进入 ModelArts 控制台首页，如下图，点击页面上的"彩蛋"，领取新手福利代金券！后续步骤可能会产生资源消耗费用，请务必领取。

以上操作，也提供了详细的视频教程，点此查看：ModelArts环境配置

在ModelArts中训练Mask R-CNN keypoints模型

准备数据和源代码

第一步：准备数据集和预训练模型

下载完成后，显示如下压缩包

解压后，得到data目录，其结构如下：

data/
├── mask_rcnn_coco.h5
├── annotations
│   ├── person_keypoints_train2014.json
│   ├── ***.json
├── train2014
│   ├── COCO_train2014_***.jpg
└── val2014
    ├── COCO_val2014_***.jpg复制

其中data/mask_rcnn_coco_humanpose.h5为预训练模型，annotations、train2014和val2014为我们提前准备好的最小数据集，包含了500张图片的标注信息。

第二步：准备源代码

第三步：安装依赖pycocotools

我们使用COCO数据集，需要安装工具库pycocotools

程序初始化

第一步：导入相关的库，定义全局变量

第二步：生成配置项

我们定义Config类的子类MyTrainConfig，指定相关的参数，较为关键的参数有：

__NAME__： Config的唯一名称
__NUM_CLASSIS__：分类的数量，我们只生成圆形，正方形和三角形，再加上背景，因此一共是4个分类
__IMAGE_MIN_DIM和IMAGE_MAX_DIM__：图片的最大和最小尺寸，我们生成固定的128x128的图片，因此都设置为128
__TRAIN_ROIS_PER_IMAGE__：每张图片上训练的RoI个数
__STEPS_PER_EPOCH和VALIDATION_STEPS__：训练和验证时，每轮的step数量，减少step的数量可以加速训练，但是检测精度降低

第三步：创建数据集对象

我们使用封装好的CocoDataset类，生成训练集和验证集。

创建模型

用"training"模式创建模型对象，并加载预训练模型

运行完成后输出下面

训练模型

Keras中的模型可以按照制定的层进行构建，在模型的train方法中，我们可以通过layers参数来指定特定的层进行训练。layers参数有以下几种预设值：

heads:只训练head网络中的分类、mask和bbox回归
all: 所有的layer
3+: 训练ResNet Stage3和后续Stage
4+: 训练ResNet Stage4和后续Stage
5+: 训练ResNet Stage5和后续Stage

此外，layers参数还支持正则表达式，按照匹配规则指定layer，可以调用model.keras_model.summary()查看各个层的名称，然后按照需要指定要训练的层。

我们针对不同的layer进行训练，首先，训练head网络中的4个分支：

输出结果：

然后训练ResNet Stage4和后续Stage

最后，对所有layer进行优化，并将训练的模型保存到本地

输出结果：

使用模型检测图片物体

第一步：创建"Inference"模式的模型对象，并加载我们训练好的模型文件

第二步：从验证数据集中随机选出一张图片，显式Ground Truth信息

输出结果，识别图片如下：

第三步：使用模型对图片进行预测，并显示结果

最终识别结果：

总结

使用Mask R-CNN模型实现人体关键节点标注，在head网络中，有分类、位置框和分割(mask)信息的3个分支，我们可以对head网络进行扩展，加入一个人体关键节点keypoint分支。并对其进行训练，使得我们的模型具备关键节点分析的能力。对人体中17个关键点进行了标注，包括：鼻子,左眼,右眼,左耳,右耳,左肩,右肩,左肘,右肘,左手腕,右手腕,左膝盖,右膝盖,左脚踝,右脚踝,左小腿,右小腿，并且取得了不错的效果。

点击关注，第一时间了解华为云新鲜技术~

人体关键 data https zhimg 人工智能

有关使用Mask R-CNN模型实现人体关键节点标注的更多相关文章

ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2
我正在学习如何使用Nokogiri，根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div
ruby - 使用 RubyZip 生成 ZIP 文件时设置压缩级别 - 2
我有一个Ruby程序，它使用rubyzip压缩XML文件的目录树。gem。我的问题是文件开始变得很重，我想提高压缩级别，因为压缩时间不是问题。我在rubyzipdocumentation中找不到一种为创建的ZIP文件指定压缩级别的方法。有人知道如何更改此设置吗？是否有另一个允许指定压缩级别的Ruby库？最佳答案这是我通过查看rubyzip内部创建的代码。level=Zlib::BEST_COMPRESSIONZip::ZipOutputStream.open(zip_file)do|zip|Dir.glob("**/*")d
ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2
很好奇，就使用rubyonrails自动化单元测试而言，你们正在做什么？您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您？git中的预提交Hook？只是手动调用？我完全理解测试，但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的，并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您？最佳答案不确定您到底想听什么，但是有几个级别的自动代码库控制:在处理某项功能时，您可以使用类似autotest的内容获得关于哪些有效，哪些无效的即时反馈。要确保您的提
ruby - 在 Ruby 中使用匿名模块 - 2
假设我做了一个模块如下:m=Module.newdoclassCendend三个问题:除了对m的引用之外，还有什么方法可以访问C和m中的其他内容？我可以在创建匿名模块后为其命名吗(就像我输入“module...”一样)？如何在使用完匿名模块后将其删除，使其定义的常量不再存在？最佳答案三个答案:是的，使用ObjectSpace.此代码使c引用你的类(class)C不引用m:c=nilObjectSpace.each_object{|obj|c=objif(Class===objandobj.name=~/::C$/)}当然这取决于
ruby - 使用 ruby 和 savon 的 SOAP 服务 - 2
我正在尝试使用ruby和Savon来使用网络服务。测试服务为http://www.webservicex.net/WS/WSDetails.aspx?WSID=9&CATID=2require'rubygems'require'savon'client=Savon::Client.new"http://www.webservicex.net/stockquote.asmx?WSDL"client.get_quotedo|soap|soap.body={:symbol=>"AAPL"}end返回SOAP异常。检查soap信封，在我看来soap请求没有正确的命名空间。任何人都可以建议我
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2
我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗？当我运行compasswatch时，它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行？文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们？我自己编译的.sass文件编译成compiled/t
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h