刷新各大纪录的新姿态检测模型
中科大和微软亚洲研究院,发布了新的人体姿态估计模型。
这个模型刷新了三项COCO纪录,还入选了CVPR 2019。
这篇论文的全称:Deep High-Resolution Representation Learning for Human Pose Estimation
上述的模型简称为 HRNet,也就是是高分辨率网络 (High-Resolution Net) 的意思。
这个模型最大的特点就是在卷积中可以一直保持高分辨率特征,不和我们之前使用的一些其他模型从低特征转化为高特征,而是从始至终保持高分辨率特征。这也是为什么这个模型,可以在COCO数据集的关键点检测、姿态估计、多人姿态估计这三项任务里,HRNet模型都超越了所有前辈。
的val2017验证集上,该模型对比了HRNet和之前模型的关键点检测表现。结果大模型HRNet-W48和小模型HRNet-W32,都刷新了COCO纪录。其中,大模型在384 x 288的输入分辨率上,拿到了76.3的AP分。之后该模型又在COCO的test-dev2017测试集上进行了测试,结果显示不论是大模型和小模型,该模型同样刷新了COCO纪录。大模型的AP分达到了77.0。
在多人姿态估计任务上,HRNet又超越了前辈们在COCO数据集上的成绩。而且在MPII验证集、PoseTrack、ImageNet验证集上,HRNet的表现都好过所有同台的对手。
简要细节
这个名叫HRNet的神经网络,为什么可以随时保持高分辨率表征的原因是其独特的并联结构,具体结构可以看下图:
论文中讲到一个概念为交换单元 (Exchange Units) ,这个单元将不同的子网络进行融合:让每一个子网络,都可以从其他子网络获取特征信息。
总之这个模块就是不断地在各个不同尺度的网络之中获取和传递信息,从而使整个网络保持高分辨率特征。
项目地址
相关源代码已经开源,利用Pytorch实现。
github地址:https://github.com/leoxiaobin/deep-high-resolution-net.pytorch
论文地址:https://arxiv.org/abs/1902.09212