预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114842534A(43)申请公布日2022.08.02(21)申请号202210492125.5G06V10/54(2022.01)(22)申请日2022.05.07G06N3/04(2006.01)G06K9/62(2022.01)(71)申请人重庆邮电大学地址400065重庆市南岸区南山街道崇文路2号(72)发明人周丽芳王懿江志程丁相栗思秦邓广(74)专利代理机构重庆市恒信知识产权代理有限公司50102专利代理师刘小红(51)Int.Cl.G06V40/16(2022.01)G06V10/82(2022.01)G06V10/80(2022.01)G06V10/762(2022.01)权利要求书3页说明书7页附图1页(54)发明名称一种基于区域自注意力卷积神经网络的人脸表情识别方法(57)摘要本发明请求保护一种基于区域自注意力卷积神经网络的人脸表情识别方法,属于模式识别与计算机视觉技术领域包括以下步骤:首先,利用VGG16网络提取输入图像的深度全局特征,在提取特征的同时保留面部表情的全局信息。其次,通过设计的区域局部多值模式与改进的K‑means算法对像素进行动态聚类,保证表情变化区域特征的鲁棒性,并将二值模式扩展到多个模式,整合区域内像素间的灰度差信息,增强纹理描述。此外,通过自注意机制形成区域权值,并使用秩正则化损失约束不同区域的权值。最后,将加权特征与深度网络提取的特征相结合,增强特征的表征能力。本发明旨在建立一个鲁棒的人脸表情识别网络来准确地估计真实环境中面部表情的类别。CN114842534ACN114842534A权利要求书1/3页1.一种基于区域自注意力卷积神经网络的人脸表情识别方法,其特征在于,包括以下步骤:步骤1:将原始表情图像输入到以VGG16为基础的特征提取网络,提取输入表情图像的深度全局特征;步骤2:设计区域局部多值模式,将原始表情图像输入到区域局部多值模式对区域纹理进行增强;其中,所述的区域局部多值模式利用改进的K‑means算法对像素进行动态聚类。在改进的K‑means算法中,首先计算每个数据点到原点的距离。然后,根据排序后的距离对原始数据点进行排序,将排序后的数据点划分为k个相等的集合,每组中以中间点为初始质心。这些初始质心可以获得更好的独特聚类结果。通过改进的K‑means算法能够保证表情变化区域特征的鲁棒性,并将二值模式扩展到k个模式,整合区域内像素间的灰度差信息,增强区域纹理特征;步骤3:将增强过的区域纹理特征输入到区域自注意模块,区域自注意模块主要包含区域自注意机制和秩正则化损失,区域自注意机制增强表情显著变化区域特征的权重,量化不同区域对表情识别的贡献,得到增强后的区域纹理注意特征。而秩正则化损失被用来约束不同区域的权重,使不同区域的权重值更有区分度。步骤4:将步骤3提取到的区域加权特征与VGG网络提取的深度全局特征进行融合。2.根据权利要求1所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,其特征在于,所述步骤1将原始表情图像输入到以VGG16为基础的特征提取网络,提取输入表情图像的深度全局特征,具体包括:A1:将人脸表情图像,通过人脸检测对齐网络MTCNN检测出人脸关键点,并将人脸图像对齐,裁剪为224×224尺寸大小的输入图像I;A2:将图像I输入到VGG16网络中提取特征,用Fg表示,则Fg可以定义为:Fg=γ(I;θ)(1)其中γ(;)为骨干网络,θ为骨干网络中的参数,Fg是通过骨干网络提取到的深度全局特征。3.根据权利要求2所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,其特征在于,所述步骤2,设计区域局部多值模式,将原始表情图像输入到区域局部多值模式对区域纹理进行增强,具体包含以下步骤:B1:对于输入的人脸表情图像,将其均匀裁剪为3×3人脸表情图像区域;B2:对于每个区域,定义其灰度值与局部邻域像素均值的差值mi,然后利用该差值作为新的像素图Menhance,定义如下:其中Pc表示像素图的中心像素值,Pi表示与Pc相邻的像素值;表示局部邻域像素均值,P表示周围采样像素的集合,i表示周围采样像素集和的索引。B3:将增强后的特征图Menhance的增强像素存储在数组a中,并将其分成k等份,得到a1,2CN114842534A权利要求书2/3页a2,…,ak,定义每个类的中心值作为校准点,计算每个像素到校准点的距离;将最接近的像素组成一个类,计算类中像素的均值,并将均值作为新的定标点,最后通过迭代得到最后k个定标点;B4:将每层的像素值进行二值化,得到k个模式,并将这些模式进行级联,得到每个区域鲁棒的特征表示Fr。4.根据权利要求3所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,其特