预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112686097A(43)申请公布日2021.04.20(21)申请号202011433083.5(22)申请日2020.12.10(71)申请人天津中科智能识别产业技术研究院有限公司地址300250天津市滨海新区天津经济技术开发区第二大街57号泰达MSD-G1座1001单元(72)发明人侯峦轩马鑫赫然孙哲南(74)专利代理机构天津市三利专利商标代理有限公司12107代理人张义(51)Int.Cl.G06K9/00(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书8页附图6页(54)发明名称一种人体图像关键点姿态估计方法(57)摘要本发明公开了一种人体图像关键点姿态估计方法,包括:对输入的训练图像预处理,用基于空洞卷积的大感受野特征金字塔网络的行人检测网络对输入图像进行检测;将检测到的人体形成的边界框进行裁剪,只保留框内图像;将裁剪后图像输入到设计的模型中,进行人体姿态关键点估计。本发明可以将含有人体的输入图像进行关键点生成,并且生成估计处理后的图像中生成的人体关键点具有较高精度较好保持了人体的骨架几何信息。CN112686097ACN112686097A权利要求书1/3页1.一种人体图像关键点姿态估计方法,其特征在于,包括以下步骤:步骤S1.将图像数据库中的图像数据预处理:首先,将原始图像送入已经训练好的基于空洞卷积的特征金字塔网络DetectionNet检测,只输出人体用边界框标记的人体图像;然后将输出的人体图像裁剪,形成预定格式大小,然后进行自动数据增强处理;步骤S2.通过训练得到能够对人体图像进行姿态估计以得到人体固件关键点图像的深度神经网络模型:利用步骤S1中已裁剪完的人体图像作为网络的输入,以训练集中的用xy轴坐标形式标出的json文件作为人体关键点标注信息像作为GroundTruth,训练深度神经网络模型中的全局网络和矫正网络,获得训练好的完成从人体图像到人体关键点图像的姿态估计的深度神经网络模型;其中,通过全局网络的ResNet101网络对输入的人体图像处理,得到不同尺寸的特征图输出,采用自底向上的U‑Shape结构,将每一层特征图进行自底向上做采样后进行加和后,进行预测操作,其中,用与GroudTruth进行L2损失函数计算以进行损失约束;通过预测操作进行预定卷积步骤处理后,生成不同关键点的热力图,从而得到初始人体关键点;将全局网络中每一层加和的特征图,通过Bottleneck后,通过设计的注意力机制模块,然后分别进行上采样,然后进行concat操作后通过Bottleneck,并采用基于难检测关键点*的L2损失约束,随后通过卷积进行热力图生成,修正初始的人体关键点,得到最终的人体关键点;模型迭代多次达到稳定后,完成模型的训练;步骤S3.使用训练好的深度神经网络模型,对测试数据集中的包含人体的图像进行姿态估计处理。2.根据权利要求1所述的人体图像关键点姿态估计方法,其特征在于,所述特征金字塔网络FPN采用特定数据增强的方法处理图片,并且对FPN的后两个stage进行修改以特定针对于目标检测,并将检测后的人体图像进行裁剪后进行输入,具体为:采用Resnet50为骨干网络进行特征提取,使用标准高斯分布随机初始化ResNet50网络;根据Resnet50提取的特征,保留stage1~4,4个尺度的特征图,并且命名为P2,P3,P4,P5,,并且通过连接卷积核大小为1*1的卷积核,增加stage5,特征图为P6的特征图;并且在stage4以后我们保持特征图的空间分辨率不变,也就是其中代表空间分辨率,i为原始图尺寸,x∈[i,2,3,4,5,6],在P4,P5,P6,之间通过连接卷积核大小为1*1的卷积核,以保持通道数一致(通道数=256);最后将stage4~6的特征图按照金字塔架构进行加和,形成FPN特征金字塔,并且采用FastRCNN的方法进行目标检测,并通过回归损失和分类损失进行约束,多损失融合,分类损失采用logloss,回归的loss和R‑CNN一样;总的损失函数:2CN112686097A权利要求书2/3页在检测网络最后的全连接层,接入了两个分支,一个是softmax用于对每个ROI区域做分类,假如有K类待分,加上背景总共K+1类,输出结果为p=(p0.........pk),另外一个是boundingbox,用于更精确的ROI的区域,输出为代表k类的boundingbox坐标,(x,y)为boundingbox左上角坐标,(x+w,y+h)为boundingbox右下角坐标;u为每个POI区域的GroundTruth,v为boundingbox的GroundTruth的回