在当今智能化的时代,人工智能为人们的生活带来了许多的便利,模式识别作为人工智能领域的一门学科,就是一门用算法、用计算机来帮助人们识别各种类别的学科,人们的生产和生活日益依赖模式识别,如最常用的人脸识别、车牌识别等。而肢体识别现在也应用到了人们的日常生活中,肢体识别本质上还是分类任务,该技术有很多应用场景,比如手势识别控制类应用、动作检测类应用、动作评测类应用、以及一些移动设备AR视频合成类应用。
对于纯粹的检测类应用,可以直接对RGB源图像进行分类,当前基于CNN的图像分类技术已经非常成熟和稳定,准确性也完全达到了实用标准。而对于另外涉及到肢体评测、AR合成类的应用,单靠图像分类技术是不够的,需要用到关键点检测技术,它能检测出肢体关键点(比如四肢、面部纹理、手指等),然后基于检测到的关键点做进一步处理。关键点检测的原理其实跟分类技术原理差不多,只是神经网络的输出不太一样。

下面展开来说说图像分类和关键检测这两种技术。
一、图像分类
图像分类是根据图像信息中所反映出来的不同特征,把不同类别的目标区分开的图像处理方法。在大部分深度学习入门教程中,图像分类基本就是hello world级别存在的,最常见的是识别猫或者狗。ImageNet数据集里有常用的1000分类,基本涵盖了大部分常见物体。
图像分类的流程很简单,输入RGB图像,输出各分类的概率值,1000分类任务就输出1000个概率值。图像分类是深度学习技术在CV领域最基础的应用,因为它涵盖了深度学习最重要的环节:特征自动提取。大家在学习CNN时会接触到Alexnet、GoogleNet或者Resnet这些之类的,全部都是特征自动提取网络,如果需要对输入分类,网络后面再接特征分类层即可。但是,大家接触过深度学习的人应该也都很清楚,图像分类是最基础的分类任务,所以起到的作用很有限,因为仅是对肢体做了一个大概的分类,无法满足更细致的需求,所以就更需要用到关键点检测技术,这里以“剪刀石头布识别”为例子来看下图像分类,以下是一个3分类的分类任务:

二、关键点检测
关键点检测的技术当前也非常成熟了,GitHub上最早的OpenPose项目非常火爆,该OpenPose人体姿态识别项目是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以Caffe为框架开发的开源库。可以实现人体动作、面部表情、手指运动等姿态估计。适用于单人和多人,具有极好的鲁棒性。是世界上首个基于深度学习的实时多人二维姿态估计应用,基于它的实例如雨后春笋般涌现。人体姿态估计技术在体育健身、动作采集、3D试衣、舆情监测等领域具有广阔的应用前景,人们比较熟悉的应用就是抖音对外推出的一个功能“尬舞机”,这一功能可以让用户随时随地打开抖音就可以体验线下跳舞机的玩法,所以抖音也成为国内首个将“人体关键点检测”技术应用于全身的产品。
关键点检测有点回归、点分类的方法。这两种方法都可以找出点在图像当中的位置与关系。通过训练后,模型能够实时推理检测出人体关键点(四肢和面部,具体技术原理是一个分支去提取点特征,回归它的点,输出点的位置;另一个分支去提取关系特征,回归它的关系,输出关系回归的位置,跟其他采用神经网络的深度学习技术相似,大家可以到网上查资料看看);关键点检测出来之后,可以进一步对这些关键点进行分析。其分析结果就不仅仅是肢体识别,还可以通过这些关键点相互之间的关系来判断肢体动作的协调程度,或者像一些AR应用在人体上叠加一些其他内容(类似抖音视频合成)。
接下来介绍两种关键点分析方法,一种是基于传统机器学习,先从关键点中人工提取特征、然后再对特征进行分析(基于常见的机器学习算法去做分类、聚类或者回归之类的);另外一种是基于深度学习端到端的处理方式,关键点直接作为神经网络的输入,输出对应想要的结果。从这两种不同的处理方式中可以了解到传统机器学习和深度学习的区别,关于两者的区别如下:
1. 关键点+机器学习方式
机器学习的一大特点是需要人工提取原数据的特征,这个过程叫特征工程。如果需要对关键点进行分析,先要从这些关键点中提取高质量特征数据,为什么要高质量?因为提取特征的方式或者说维度有很多,要保证提取到的特征数据最具代表性、能够充分表达原数据的特点。
现以“石头剪刀布手势识别”为例子,来说明如何人工提取特征数据。我们知道,石头剪刀布3种手势之间手指的形状差异很大,手指和手指关节之间的直线距离差异很明显,那么我们可以将关节之间直线距离当作关键点的特征数据,并将其提取出来。

使用提取到的特征数据(特征向量,Feature Vector),训练K-Means或者DBSCAN等机器学习分类算法模型,并将其泛用到其他新数据(新特征)。

2. 关键点+深度学习方式
跟机器学习不同,深度学习的一大特点就是神经网络能够自动提取特征、自动寻找源数据内部的规律。至于它如何提取、或者根据什么原理去提取,很难解释。你只需要将源数据(关键点坐标)输入神经网络,直接可以输出对应结果,如果是前面提到的“石头剪刀布手势识别”任务,网络可以输出三种手势分别对应的概率。
我们可以看到,机器学习和深度学习两种方式的输入是不一样的,前者的输入是人工提取的特征数据(某些关节点之间的直线距离值集合),后者输入可以直接是关键点坐标值(关键点XY值集合)。
正因为深度学习这种端到端的处理方式、省去了繁琐的特征工程,才能使得其大规模应用在复杂的非结构化数据上,比如CV中的CNN网络,它直接接收RGB格式图像作为输入,它处理的对象是像素值,而无需人工做过多的干预。

我们用关键点数据训练最简单的神经网络,将训练得到的模型应用到真实数据上。这次主要介绍了肢体识别的几种方式,以及采用关键点检测时,如何处理关键点数据。同时提到了机器学习和深度学习不同的工作流程,以及各自的特点。
免责声明:本账号部分分享的资料来自网络收集和整理,所有文字和图片版权归属于原作者所有,文章仅供读者学习交流使用,并请自行核实相关内容,如文章内容涉及侵权,请联系后台管理员删除。
对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl
我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此
我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r
刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr
我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R
是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在
导读语言模型给我们的生产生活带来了极大便利,但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT:判断文本是否为机器生成的工具」中,主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具,它可以帮助我们更好地分辨文章的来源和可信度,对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能,实现和效果等展开。(文末点击“阅读原文”,查看活动回放。)Ericmitchell斯坦福大学计算机系四年级博士生,由ChelseaFinn和Chri
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
导读:随着叮咚买菜业务的发展,不同的业务场景对数据分析提出了不同的需求,他们希望引入一款实时OLAP数据库,构建一个灵活的多维实时查询和分析的平台,统一数据的接入和查询方案,解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型,最终引入ApacheDoris作为最终的OLAP分析引擎,Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图,在叮咚买菜数十个业务场景中广泛应用。作者|叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月,是一家专注美好食物的创业公司。叮咚买菜专注吃的事业,为满足更多人“想吃什么”而努力,通过美好食材的供应、美好滋味的开发以及美食品牌的孵
在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList()Obt