预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115910065A(43)申请公布日2023.04.04(21)申请号202211518304.8G06N3/0442(2023.01)(22)申请日2022.11.30G06N3/0499(2023.01)(71)申请人武汉理工大学重庆研究院地址401120重庆市渝北区龙兴镇两江大道618号(72)发明人陈亚雄赵怡晨路雄博邓梦涵熊盛武(74)专利代理机构武汉智嘉联合知识产权代理事务所(普通合伙)42231专利代理师张璐(51)Int.Cl.G10L15/25(2013.01)G06V40/16(2022.01)G06V40/20(2022.01)G06N3/08(2023.01)权利要求书2页说明书8页附图1页(54)发明名称基于子空间稀疏注意力机制的唇语识别方法、系统及介质(57)摘要本发明涉及一种基于子空间稀疏注意力机制的唇语识别方法、系统及介质,方法包括:获取唇部区域图像序列,基于所述唇部区域图像序列提取得到唇部特征序列;将所述唇部特征序列输入到预设的训练完备的音素序列提取模型,得到与所述唇部特征序列相对应的发音音素序列;将所述发音音素序列输入到搭建有子空间稀疏自注意力机制的句子推理模型中得到目标句子序列。本发明通过构建一个特殊的注意力机制对上下文信息进行增强,实现了在一个正向操作中预测长句子序列,从而大大提高推理速率和准确率。CN115910065ACN115910065A权利要求书1/2页1.基于子空间稀疏注意力机制的唇语识别方法,其特征在于,包括:获取唇部区域图像序列,基于所述唇部区域图像序列提取得到唇部特征序列;将所述唇部特征序列输入到预设的训练完备的音素序列提取模型,得到与所述唇部特征序列相对应的发音音素序列;将所述发音音素序列输入到搭建有子空间稀疏自注意力机制的句子推理模型中得到目标句子序列。2.根据权利要求1所述的基于子空间稀疏注意力机制的唇语识别方法,其特征在于,确定所述训练完备的音素序列提取模型,包括:初始化LSTM模型,将唇部区域图像样本对应的唇部特征序列作为训练样本,将所述训练样本输入到所述LSTM模型中,得到发音音素序列的预测结果;根据所述训练样本和所述预测结果,得到LSTM模型损失函数的值;根据所述到LSTM模型损失函数的值,得到所述训练完备的音素序列提取模型。3.根据权利要求1所述的基于子空间稀疏注意力机制的唇语识别方法,其特征在于,所述搭建有子空间稀疏自注意力机制的句子推理模型包括句子推理网络模块、语言模型判定模块和推理句子序列模块;所述将所述发音音素序列输入到搭建有子空间稀疏自注意力机制的句子推理模型中得到目标句子序列,包括:将所述发音音素序列输入到所述句子推理网络模块中,进行句子推理,得到全部的过渡句子子序列;将所述全部的过渡句子子序列输入到所述语言模型判定模块中,根据困惑度计算所述全部的过渡句子子序列的困惑值;基于推理句子序列模块选择所述困惑值最小的过渡句子子序列,得到预测的目标句子序列。4.根据权利要求3所述的基于子空间稀疏注意力机制的唇语识别方法,其特征在于,所述句子推理网络模块包括多个句子子序列推理子模块,所述每个句子子序列推理子模块均包括带掩膜的多头自注意力机制模块和前馈网络模块;将所述发音音素序列输入到所述句子推理网络模块中,进行句子推理,得到全部的过渡句子子序列,包括:基于每个句子子序列推理子模块中的带掩膜的多头自注意力机制模块和前馈网络模块将所述发音音素序列对应的向量转化为对应的句子子序列。5.根据权利要求4所述的基于子空间稀疏注意力机制的唇语识别方法,其特征在于,基于每个句子子序列推理子模块中的带掩膜的多头自注意力机制模块和前馈网络模块将所述发音音素序列对应的向量转化为对应的句子子序列,包括:将音素序列经过用带掩膜的多头自注意力机制模块处理得到第一向量;将所述第一向量和发音因素序列对应的向量相乘得到第二向量;将所述第二向量层归一化并输入到前馈神经网络模块中,进行降维操作,得到第三向量;将所述第三向量和所述第二向量相乘经过层归一化得到全部的过渡句子子序列。6.根据权利要求5所述的基于子空间稀疏注意力机制的唇语识别方法,其特征在于,所述带掩膜的多头自注意力机制模块的模块执行过程包括:输入向量通过线性变化得到查询Q、键K和值V三个矩阵;2CN115910065A权利要求书2/2页将所述的三个矩阵经过卷积分别得到对应的词向量;将所述键K的词向量和所述值V的词向量进行降维操作;将所述查询Q的词向量、所述键K的词向量和所述值V的词向量进行计算,得到输出向量。7.根据权利要求3所述的基于子空间稀疏注意力机制的唇语识别方法,其特征在于,将所述全部的过渡句子子序列输入到所述语言模型判定模块中,包括:根据所述句子子序列对应