预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114220163A(43)申请公布日2022.03.22(21)申请号202111367996.6G06K9/62(2022.01)(22)申请日2021.11.18G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人孟庆月(74)专利代理机构北京鸿德海业知识产权代理有限公司11412代理人谷春静(51)Int.Cl.G06V40/20(2022.01)G06V20/40(2022.01)G06V10/25(2022.01)G06V10/774(2022.01)G06V10/82(2022.01)权利要求书3页说明书9页附图3页(54)发明名称人体姿态估计方法、装置、电子设备及存储介质(57)摘要本公开提供了人体姿态估计方法、装置、电子设备及存储介质,涉及深度学习、计算机视觉以及增强现实等人工智能领域,其中的方法可包括:针对待处理视频中的第i帧图像,i≤2≤M,M为大于一的正整数,表示待处理视频中包括的帧数,若确定从第i‑1帧图像中检测到了目标,则针对检测到的目标,进行以下处理:根据该目标在第i‑1帧图像中的包围框,确定出第i帧图像中包括该目标的第一图像区域;根据第一图像区域进行该目标的关键点坐标预测。应用本公开所述方案,可提升处理结果的准确性及提升处理效率等。CN114220163ACN114220163A权利要求书1/3页1.一种人体姿态估计方法,包括:针对待处理视频中的第i帧图像,i≤2≤M,M为大于一的正整数,表示所述待处理视频中包括的帧数,若确定从第i‑1帧图像中检测到了目标,则针对检测到的目标,进行以下处理:根据所述目标在所述第i‑1帧图像中的包围框,确定出所述第i帧图像中包括所述目标的第一图像区域;根据所述第一图像区域进行所述目标的关键点坐标预测。2.根据权利要求1所述的方法,其中,所述确定出所述第i帧图像中包括所述目标的第一图像区域包括:根据所述目标在所述第i‑1帧图像中的包围框生成扩展包围框,所述包围框对应的第一区域位于所述扩展包围框对应的第二区域内;根据所述扩展包围框在所述第i‑1帧图像中的位置,确定出所述第i帧图像中所述位置对应的所述第一图像区域。3.根据权利要求2所述的方法,其中,所述根据所述第一图像区域进行所述目标的关键点坐标预测包括:从所述第i帧图像中截取出所述第一图像区域;对截取出的所述第一图像区域进行目标检测,若检测到目标,则从所述第一图像区域中截取出检测到的目标的包围框对应的第二图像区域,并将所述第二图像区域作为待预测区域,根据所述待预测区域确定出其中的目标的关键点坐标。4.根据权利要求3所述的方法,还包括:若确定未从所述第i‑1帧图像中检测到目标,则利用第一检测模型对所述第i帧图像进行目标检测;若检测到目标,则从所述第i帧图像中截取出检测到的目标的包围框对应的第三图像区域,并将所述第三图像区域作为待预测区域,根据所述待预测区域确定出其中的目标的关键点坐标。5.根据权利要求3所述的方法,还包括:若确定未从所述第i帧图像中检测到目标或符合预定的触发条件,则利用第一检测模型对所述第i帧图像进行目标检测;若检测到目标,则从所述第i帧图像中截取出检测到的目标的包围框对应的第四图像区域,并将所述第四图像区域作为待预测区域,根据所述待预测区域确定出其中的目标的关键点坐标。6.根据权利要求3、4或5所述的方法,其中,所述根据所述待预测区域确定出其中的目标的关键点坐标包括:利用关键点预测模型确定出所述待预测区域中的目标的关键点坐标。7.根据权利要求4或5所述的方法,其中,对所述第一图像区域进行目标检测包括:利用第二检测模型对所述第一图像区域进行目标检测,所述第二检测模型为对所述第一检测模型进行简化后得到的模型。8.根据权利要求7所述的方法,还包括:利用第一数据集中的训练数据训练得到所述第一检测模型,每条训练数据中分别包括2CN114220163A权利要求书2/3页样本图像以及对应的标签,所述标签包括对应的样本图像中的目标的包围框;针对任一包围框,分别进行以下处理:生成对应的扩展包围框,从所在样本图像中截取出所述扩展包围框对应的第五图像区域,将所述第五图像区域作为新的样本图像,并生成所述新的样本图像对应的标签,将所述新的样本图像及对应的标签作为一条新的训练数据;利用得到的新的训练数据组成第二数据集,利用所述第二数据集训练得到所述第二检测模型。9.一种人体姿态估计装置,包括:第一处理模块以及第二处理模块;所述第一处理模块,用于针对待处理视频中的第i帧图像,i≤2≤M,M为大于一的正整数,表示所述待处理视频中包括的帧