预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114255456A(43)申请公布日2022.03.29(21)申请号202111393620.2G06N3/04(2006.01)(22)申请日2021.11.23(71)申请人金陵科技学院地址211112江苏省南京市江宁区弘景大道99号(72)发明人孔令军陈静娴裴会增沈馨怡刘伟光周耀威闫佳艺(74)专利代理机构江苏圣典律师事务所32237代理人吴庭祥(51)Int.Cl.G06V20/62(2022.01)G06V10/26(2022.01)G06V10/40(2022.01)G06V10/80(2022.01)G06V10/82(2022.01)权利要求书2页说明书5页附图3页(54)发明名称基于注意力机制特征融合与增强的自然场景文本检测方法和系统(57)摘要本发明公开了基于注意力机制特征融合与增强的自然场景文本检测方法和系统,方法包括,对自然场景文本图像进行特征提取得到第一特征图;进一步提取空间信息特征,得到空间信息掩码;对最后一个第一特征图进行语义信息的特征提取,获得通道权重向量;逐级对第一特征图、空间信息掩码、通道权重向量进行基于注意力机制的解码融合,得到第二特征图;对融合特征做通道数调整,按照通道维度拼接得到第三特征图;上采样到原图大小,并进行卷积,获得自然场景文本图像中文本核心区域和边界区域的分割掩模。本发明特征提取信息全面,效果好;解码后的特征包含更多更精准的目标信息;使用卷积与不同维度的池化操作提取更加显著的特征且起到抑制噪声的作用。CN114255456ACN114255456A权利要求书1/2页1.基于注意力机制特征融合与增强的自然场景文本检测方法,其特征在于,包括以下步骤,S1、获取自然场景文本图像;S2、对所述自然场景文本图像进行特征提取,整体做n次下采样操作,取第[2,n]次下采样后的特征图为第一特征图;S3、除最后一次下采样后的第一特征图外,对其他每个第一特征图进行空间信息特征提取,得到空间信息掩码;对最后一个第一特征图进行通道信息的特征提取,获得通道权重向量;S4、逐级对第一特征图、空间信息掩码、通道权重向量进行基于注意力机制的解码融合,经过上采样、相乘、相加的操作得到具有显著特征的第二特征图;S5、使用卷积对融合特征做通道数调整,并采用不同倍率的上采样统一尺寸为原图1/4大小,按照通道维度拼接得到第三特征图;S6、构造卷积、池化、拼接的不同组合,对第三特征图进一步的特征提取、融合与加强;S7、对S6得到的特征上采样到原图大小,并进行卷积,获得自然场景文本图像中文本核心区域和边界区域的分割掩模。2.根据权利要求1所述的自然场景文本检测方法,其特征在于,步骤S2的过程具体为,将待识别的自然场景文本图像统一缩放至A×A大小;运用可变型卷积提取特征,使其执行5次下采样分别得到大小为A/4、A/8、A/16、A/32的第一特征图in2、in3、in4、in5。3.根据权利要求2所述的自然场景文本检测方法,其特征在于,步骤S3的过程具体为,构造卷积核池化和拼接的组合,使用空间信息提取模块SAM对第一特征图in4按位置做最大池化和平均池化,对最大池化和平均池化后的特征拼接并卷积后得到空间信息掩码S4;对第一特征图in5按通道维度做最大池化和平均池化得到两个信息向量,对该两个信息向量做全连接操作并按位置相加后得到通道权重向量c5。4.根据权利要求3所述的自然场景文本检测方法,其特征在于,步骤S4的过程具体为,特征融合模块AFFM对来自浅层编码端的第一特征图ink(k=2,3,4)和来自深层解码端的第二特征图outk+1(k=2,3,4)进行解码融合,得到本层融合后的第二特征图outm(m=2,3,4,5)。5.根据权利要求4所述的自然场景文本检测方法,其特征在于,步骤S5的过程具体为,将所得融合后的第二特征图outm分别经过一层3×3卷积进一步提取特征,并对通道维度统一调整为C,再对调整通道后的特征分别做0、2、4、8倍率的上采样统一调整至原图1/4大小,得到特征P2、P3、P4、P5,并对其进行通道维度的拼接作为第三特征图F,其维度为4C×A/4×A/4。6.根据权利要求5所述的自然场景文本检测方法,其特征在于,步骤S6的过程具体为,特征增强模块JAM分别使用通道信息提取模块CAM和空间信息提取模块SAM对第三特征图F做通道间和空间位置间的依赖关系建模,再对所得4C×1×1通道信息权向量和1×A/4×A/4的空间信息掩码扩张到4C×A/4×A/4维度后按位置相乘得到权重特征F',再经过sigoid激活函数后与第三特征图F相乘得到增强后的特征F”。7.一种基于注意力机制的自然场景文本检测系统,其特征在于,包括,获取模块,用于获取