预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115965975A(43)申请公布日2023.04.14(21)申请号202211149100.1(22)申请日2022.09.21(71)申请人复旦大学地址200433上海市杨浦区邯郸路220号申请人上海兑观信息科技技术有限公司(72)发明人杜响成周钊郑莹斌金城(74)专利代理机构上海正旦专利代理有限公司31200专利代理师王洁平(51)Int.Cl.G06V30/146(2022.01)G06V30/18(2022.01)G06N3/0464(2023.01)G06N3/08(2023.01)权利要求书2页说明书5页附图4页(54)发明名称基于多尺度特征聚合的场景图像文字检测方法(57)摘要本发明公开了一种基于多尺度特征聚合的场景图像文字检测方法;其包括:提取不同尺度文本图像特征表示,同时获取文字嵌入表示;将多尺度文本图像特征表示聚合后输入堆叠的基于Transformer结构的编码器中,获得加强的多尺度图像特征表示;利用加强的多尺度图像特征表示进行文字嵌入表示的更新;初始化一组查询向量,将加强的多尺度图像特征表示恢复到二维图像特征,将查询向量、二维图像特征和更新的文字嵌入表示同输入解码器中,得到更新的查询向量,再对更新的查询向量与文字嵌入表示进行计算得到文字掩码,最后后处理得到文字检测结果。本发明方法用于场景文本检测准确度高,后处理简单,检测性能优越。CN115965975ACN115965975A权利要求书1/2页1.一种基于多尺度特征聚合的场景文字检测方法,其特征在于,其基于场景文字检测模型进行检测,所述场景文字检测模型包括特征提取模块、堆叠的基于Transformer的编码器和基于Transformer的解码器;具体步骤如下:(1)对原始场景文本图像进行不同尺度的缩放;(2)利用特征提取模块对不同尺度的图像进行特征表示的提取,同时从最大尺度的图像中获取文字嵌入表示;(3)将不同尺度的图像特征表示连同位置编码一起输入堆叠的基于Transformer的编码器中,输出得到加强的多尺度图像特征表示;(4)将文字嵌入表示与加强的多尺度图像特征表示进行可变注意力计算,更新得到具有更丰富特征的文字嵌入表示;(5)初始化一组查询向量,同时将加强的多尺度图像特征表示恢复到二维图像特征,之后将查询向量、二维图像特征以及更新的文字嵌入表示一起输入基于Transformer的解码器中,输出得到更新的具有文字特征表示的查询向量;(6)基于最后更新得到的查询向量与更新的文字嵌入表示计算得到文字掩码,再经过后处理操作得到检测结果。2.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(2)中,特征提取模块由ViT模块,多个卷积层或者多个残差卷积块实现。3.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(3)中,每个Transformer的编码器单元包含一个多尺度可变形注意力模块和一个前向计算模块;不同尺度的图像特征表示连同位置编码输入基于Transformer的编码器中,多尺度可变形注意力模块对图像特征进行可变性注意力计算,将计算输出的结果与输入的多尺度图像特征进行相加和归一化操作,之后对相加归一化的结果输入前向计算模块,最后对前向计算模块的输入与输出进行相加与归一化操作,得到加强的多尺度图像特征表示。4.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(6)中,对最后更新得到的查询向量进行MLP操作后,与更新的文字嵌入表示进行相乘及阈值处理得到文字掩码;文字掩码计算公式如下:其中,Mt(i,j)表示通过第t个查询向量得到的位于(i,j)位置的文字掩码的值,sigmoid指sigmoid激活函数,MLP则用来增强查询向量Qt的非线性能力,E(i,j)表示更新后的文字嵌入表示中位于(i,j)位置的值。5.根据权利要求1所述的场景文字检测方法,其特征在于,步骤(6)中,后处理操作具体为:利用非极大抑制算法过滤重复的文字掩码以及区域太小的掩码。6.根据权利要求1所述的场景文字检测方法,其特征在于,场景文字检测模型训练时,损失函数L由掩码损失函数Lmask和分类损失函数Lcls两部分组成;其中,Lmask是文本实例的掩码二值化损失,由bce损失和dice损失组成,而Lcls是文本与非文本分类预测的损失;损失函数的表示为:L=Lmask+λclsLcls,其中,当类别预测为文字时λcls=0.4,预测为非文字时λcls=0.02;各个损失计算如下:2CN115965975A权利要求书2/2页其中,N和K是查询向量的数量和采样的位置,和分别表示预测的值和真实的值;其中lt和pt分别表示查询向量Qt的类别的真实值和类别预测的概率值。3CN115965975A说明书1/5页基于多