草庐IT

ViTPose+:迈向通用身体姿态估计的视觉Transformer基础模型

身体姿态估计旨在识别出给定图像中人或者动物实例身体的关键点,除了典型的身体骨骼关键点,还可以包括手、脚、脸部等关键点,是计算机视觉领域的基本任务之一。目前,视觉transformer已经在识别、检测、分割等多个视觉任务上展现出来很好的性能。在身体姿态估计任务上,使用CNN提取的特征,结合定制化的transformer模块进行特征增强,视觉transformer取得了很好的效果。然而,简单的视觉transformer本身在姿态估计任务上是否能有很好的表现呢?京东探索研究院联合悉尼大学在这方面做出了探索,提出了基于简单视觉transformer的姿态估计模型ViTPose和改进版本ViTPose+