预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113609922A(43)申请公布日2021.11.05(21)申请号202110792080.9(22)申请日2021.07.13(71)申请人中国矿业大学地址221116江苏省徐州市铜山区大学路一号(72)发明人王军袁静波申政文潘在宇李玉莲鹿姝(74)专利代理机构南京理工大学专利中心32203代理人朱沉雁(51)Int.Cl.G06K9/00(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)权利要求书4页说明书7页附图1页(54)发明名称基于模态匹配的连续手语语句识别方法(57)摘要本发明公开了一种基于模态匹配的连续手语语句识别方法,将手语语句的彩色视频和光流图像序列的关键帧和目标词语片段序列作为输入,通过基于模态匹配的连续手语语句识别模型,将手语语句的彩色视频和光流图像序列的关键帧片段序列与语义匹配对齐,得到最终的语义序列。本发明公开了一种基于模态匹配的连续手语语句识别模型,用轻量的特征提取网络,减少其参数量,针对手语数据集进行任务特定性训练,在数据集中样本的标注较少的情况下对连续手语语句进行识别,减少了在传统手语识别方法中对人体姿势信息高度依赖的问题。CN113609922ACN113609922A权利要求书1/4页1.一种基于模态匹配的连续手语语句识别方法,其特征在于,步骤如下:步骤S1、采集M个彩色视频模态的手语视频,100<M<10000,使用TV‑L1算法对彩色视频模态的手语视频的光流信息进行提取,并形成帧数相同的光流图像序列,提供光流视频模态的手语视频;采用CNN对上述两种模态的每个手语视频的关键帧分别进行提取,对应得到像素大小为h×b、关键帧均匀采样至N帧的两种模态的关键帧手语视频,10<N<100,在得到的两种模态的关键帧手语视频中各选取m个相对应的视频构成训练集,100<m<M,两种模态的关键帧手语视频中剩余的视频构成测试集;步骤S2、构建基于模态匹配的连续手语语句识别模型:所述基于模态匹配的连续手语语句识别模型包括手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络:采用基于时间自适应的CNN,即TANet,作为手语关键帧片段时空特征提取网络:首先经过一个标准卷积操作,再通过13个TAM‑DWConv卷积模块,最后输入到全连接层之后进行平均池化汇总;多模态潜在语义空间映射网络使用了One‑Hot编码并利用了线性投影函数构成潜在语义空间;编解码网络包括双层LSTM和注意力网络;步骤S3、在训练集中抽取V组两种模态的关键帧手语视频分别对手语关键帧片段时空特征提取网络、多模态潜在语义空间映射网络和编解码网络训练得到初始权重,再输入全部训练集对基于模态匹配的连续手语语句识别模型进行训练;其中,手语关键帧片段时空特征提取网络将用于有效提取彩色视频和光流视频模态的关键帧手语视频片段的时空特征;多模态潜在语义空间映射网络将提取到的两种模态的关键帧手语视频片段的时空特征和利用One‑Hot编码得到的词语序列向量映射到相同的潜在语义空间中;编码网络用于学习两种模态的关键帧手语视频片段的长期时空特征并输入解码网络,解码网络将潜在语义空间中的时空特征与词语序列向量匹配对齐;即获得训练好的连续手语语句识别模型;步骤S4、利用测试集对训练好的基于模态匹配的连续手语语句识别模型进行测试,得到连续手语语句识别准确性。2.根据权利要求1所述的基于模态匹配的连续手语语句识别方法,其特征在于,步骤S2中,在构建手语关键帧片段时空特征提取网络时,将手语视频的关键帧序列划分为若干个片段作为输入,采用基于时间自适应的CNN作为手语关键帧片段时空特征提取网络;采用轻量化的CNN模型MobileNet作为基础网络,并以时间自适应模块TAM为研究基础,手语关键帧片段时空特征提取网络,即TANet包含了嵌入MobileNet的时间特征提取模块TAM;MobileNet的基本单元为深度可分离卷积,分解为深度级卷积和点级卷积;TAM包括局部和全局两个分支,局部分支使用时间卷积操作捕获输入特征的短期时间信息,全局分支结合长期时间关系,利用局部分支的短期时间信息和全连接层自适应地聚合时间信息;将MobileNet基本单元中大小为3x3的深度级卷积层的输出作为TAM的输入特征,采用全局平均池化操作压缩输入特征图Xc,t的空间信息,计算方式如下式所示:2CN113609922A权利要求书2/4页其中,c,t,j,i分别是通道、时间、高度、宽度维度的索引,表示输入特征的空间聚合信息,C、T、H、W分别为输入特征图的通道数、时间、高度和宽度;TAM使用时间卷积层和Relu非线性函数构建局部分支,如下式所示:其中,A是学习到的位置敏感的