预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114155527A(43)申请公布日2022.03.08(21)申请号202111339474.5G06N3/04(2006.01)(22)申请日2021.11.12G06N3/08(2006.01)(71)申请人虹软科技股份有限公司地址310012浙江省杭州市西湖区西斗门路3号天堂软件园A幢22、23楼(72)发明人张春阳王进徐刚(74)专利代理机构北京安信方达知识产权代理有限公司11262代理人凌齐文(51)Int.Cl.G06V30/10(2022.01)G06V10/22(2022.01)G06V10/46(2022.01)G06V10/764(2022.01)G06K9/62(2022.01)权利要求书4页说明书16页附图5页(54)发明名称一种场景文本识别方法和装置(57)摘要本发明公开了一种场景文本识别方法和装置。其中,该方法包括:获取多张目标场景图像,其中,所述目标场景图像包含目标对象;将每张所述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列;通过解码器解码所述图像编码特征序列,生成每张所述目标场景图像的字符识别结果;将多帧所述字符识别结果输入多帧综合模块,确定最终字符识别结果,解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。CN114155527ACN114155527A权利要求书1/4页1.一种场景文本识别方法,其特征在于,包括:获取多张目标场景图像,其中,所述目标场景图像包含目标对象;将每张所述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列;通过解码器解码所述图像编码特征序列,生成每张所述目标场景图像的字符识别结果;将多帧所述字符识别结果输入多帧综合模块,确定最终字符识别结果。2.根据权利要求1所述的方法,其特征在于,所述将每张所述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列以前,所述方法还包括:将所述目标场景图像输入经过训练的目标定位检测网络,获得所述目标对象的区域坐标和区域类型;根据所述区域坐标和所述区域类型,将所述目标场景图像仿射变换生成校正后的目标场景图像。3.根据权利要求1所述的方法,其特征在于,将每张所述目标场景图像依次输入编码器进行特征提取和编码,生成图像编码特征序列,包括:将所述目标场景图像经主干网络特征提取,获得特征序列;将所述特征序列通过至少一层双向循环网络,生成所述图像编码特征序列。4.根据权利要求3所述的方法,其特征在于,将所述目标场景图像经主干网络特征提取,获得特征序列,包括:将所述目标场景图像经所述主干网络处理,生成长宽与所述目标场景图像的长宽呈比例的多层特征图;按所述目标场景图像中文本排列方向,将所述多层特征图切割分离生成所述特征序列。5.根据权利要求3所述的权利要求,其特征在于,所述主干网络由至少一个卷积层,至少一个激活层,重排列层,切割层和合并层组成。6.根据权利要求3所述的权利要求,其特征在于,将所述特征序列通过至少一层双向循环网络,生成所述图像编码特征序列,包括:将所述特征序列分别从正向和反向输入所述至少一层双向循环网络,生成两个候选特征序列;将所述两个候选特征序列按空间对应关系合并,得到所述图像编码特征序列。7.根据权利要求1所述的方法,其特征在于,所述解码器由全连接层或多层感知器、联结时序连接分类模型组成,或者,所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成。8.根据权利要求7所述的方法,其特征在于,当所述解码器由全连接层或多层感知器、时序连接分类模型组成,所述方法包括:将所述图像编码特征序列输入所述全连接层或多层感知器,获得与输入特征序列同样长度的分类概率分布向量;根据所述目标对象的解码规则,通过所述联结时序分类模型解码所述分类概率分布向量,生成所述每张所述目标场景图像的字符识别结果。2CN114155527A权利要求书2/4页9.根据权利要求7所述的方法,其特征在于,当所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成,包括:将所述图像编码特征序列中每个序列通过所述全连接层或多层感知器转换为各序列的权重向量;根据所述各序列的权重向量,通过注意力机制融合得到能够表征当前待识别的字符的特征向量;将待识别的字符的特征向量送入所述循环神经网络中进而依次得到所述每张所述目标场景图像的字符识别结果。10.根据权利要求1所述的方法,其特征在于,将多帧所述字符识别结果输入多帧综合模块,确定最终字符识别结果,包括:综合所述字符识别结果,所述多帧综合模块判断是否得到稳定识别结果,若是,完成识别流程并输出所述最终字符识别结果,若否,则返回所述编码器和所述解码器重复识别流程,其