预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103577793103577793A(43)申请公布日2014.02.12(21)申请号201210264265.3(22)申请日2012.07.27(71)申请人中兴通讯股份有限公司地址518057广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦法务部(72)发明人罗圣美王高浩耿卫东(74)专利代理机构北京派特恩知识产权代理事务所(普通合伙)11270代理人张振伟王黎延(51)Int.Cl.G06K9/00(2006.01)G06K9/66(2006.01)权权利要求书3页利要求书3页说明书9页说明书9页附图5页附图5页(54)发明名称手势识别方法及装置(57)摘要本发明公开了一种手势识别方法,捕捉常见的人体基本动作并存储为样本动作;根据所述样本动作得到最终的训练动作;对训练动作进行图形渲染生成初步的深度图及相应部位标识图;根据所生成的深度图合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型;通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征向量,通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。本发明同时公开了一种手势识别装置。CN103577793ACN103579ACN103577793A权利要求书1/3页1.一种手势识别方法,其特征在于,所述方法包括:实时获取人体深度图片,使用阈值分割背景而确定人物位置,再通过基于平滑度约束的区域生长提取精确深度人像轮廓;基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率;基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点;记录骨架节点的时序序列形成骨架运动轨迹;抽取人体手部节点的运动轨迹与预定义的模板进行匹配,识别出手势动作类型。2.根据权利要求1所述的方法,其特征在于,基于随机森林模型计算深度人像轮廓的每个像素的深度特征之前,所述方法还包括:捕捉常见的人体基本动作并存储为样本动作;对所述样本动作进行关键帧聚类,剔除重复和相似的动作,得到最终的训练动作;配合不同的人体模型,对训练动作进行图形渲染生成初步的深度图及相应部位标识图;对所生成的深度图进行重采样、加噪处理,合成与实时采集的深度图相似的样本;利用合成样本计算对应深度特征向量,训练得到随机森林模型。3.根据权利要求2所述的方法,其特征在于,所述利用合成样本计算对应深度特征向量,训练得到随机森林模型,包括:定义深度变化差异特征为:定义深度凹凸差异特征为:其中,u,v为所述深度特征的随机参数,为像素x在u,v方向的位移;dI(x)为深度图I上的像素x的深度值;随机挑选合成样本,并随机抽取合成样本中的若干像素作为训练样本,并读取对应部位标识图获取部位标识;从根节点开始生成单棵随机决策树,对于当前分裂节点进行以下处理:计算当前节点训练样本中样本数量最多的类别,作为该节点的类别,同时计算更新交叉验证错误率;确定节点训练样本数量少于设定阈值、深度大于最大指定深度且节点只存在一种类别时,停止分裂;确定节点训练样本数量大于等于设定阈值、或深度小于等于最大指定深度且节点存在两种以上类别时,继续分裂,寻找最优分裂;所有节点停止分裂时停止训练。4.根据权利要求1或2所述的方法,其特征在于,所述基于随机森林模型计算深度人像轮廓的每个像素的深度特征,形成特征向量,再通过随机森林模型确定每个像素的部位标识概率,包括:读入轮廓提取后的人物深度图;对于图中的所有像素中的每一个非背景像素,计算深度特征向量;调用随机森林识别模型,单棵决策树的终叶子节点给出类别c概率分布为Pt(c|I,x),则整个随机森林的最终预测结果为:2CN103577793A权利要求书2/3页取其中概率最大的类作为当前像素的类别:C(I,x)=argmaxP(c|I,x)。5.根据权利要求1或2所述的方法,其特征在于,所述基于每个像素对应的人体部位及其概率,滤除识别噪点,聚合生成骨架节点,包括:初始化搜索窗口为整个人像范围;对当前帧的部位识别标识图,遍历所有像素点,按照部位对应的腐蚀窗口大小,腐蚀去除噪点和边缘标识点;定义每个部位的密度分布估计为:其中,x是像素对应的三维空间位置,N为人像像素总数,x1为对应于深度值d将x重投影到三维空间的位置,bc未通过离线训练获得的每个部位的宽度,wi为像素权重,wi=2P(c|I,xi),dI(xi);对于被腐蚀