一种场景文本识别方法和装置-豆柴文库

一种场景文本识别方法和装置.pdf

2023-07-24

10金币

806KB

26页

慧红****ad

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共26页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114155527A(43)申请公布日2022.03.08(21)申请号202111339474.5G06N3/04(2006.01)(22)申请日2021.11.12G06N3/08(2006.01)(71)申请人虹软科技股份有限公司地址310012浙江省杭州市西湖区西斗门路3号天堂软件园A幢22、23楼(72)发明人张春阳王进徐刚(74)专利代理机构北京安信方达知识产权代理有限公司11262代理人凌齐文(51)Int.Cl.G06V30/10(2022.01)G06V10/22(2022.01)G06V10/46(2022.01)G06V10/764(2022.01)G06K9/62(2022.01)权利要求书4页说明书16页附图5页(54)发明名称一种场景文本识别方法和装置(57)摘要本发明公开了一种场景文本识别方法和装置。其中，该方法包括：获取多张目标场景图像，其中，所述目标场景图像包含目标对象；将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果，解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。CN114155527ACN114155527A权利要求书1/4页1.一种场景文本识别方法，其特征在于，包括：获取多张目标场景图像，其中，所述目标场景图像包含目标对象；将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果。2.根据权利要求1所述的方法，其特征在于，所述将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列以前，所述方法还包括：将所述目标场景图像输入经过训练的目标定位检测网络，获得所述目标对象的区域坐标和区域类型；根据所述区域坐标和所述区域类型，将所述目标场景图像仿射变换生成校正后的目标场景图像。3.根据权利要求1所述的方法，其特征在于，将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列，包括：将所述目标场景图像经主干网络特征提取，获得特征序列；将所述特征序列通过至少一层双向循环网络，生成所述图像编码特征序列。4.根据权利要求3所述的方法，其特征在于，将所述目标场景图像经主干网络特征提取，获得特征序列，包括：将所述目标场景图像经所述主干网络处理，生成长宽与所述目标场景图像的长宽呈比例的多层特征图；按所述目标场景图像中文本排列方向，将所述多层特征图切割分离生成所述特征序列。5.根据权利要求3所述的权利要求，其特征在于，所述主干网络由至少一个卷积层，至少一个激活层，重排列层，切割层和合并层组成。6.根据权利要求3所述的权利要求，其特征在于，将所述特征序列通过至少一层双向循环网络，生成所述图像编码特征序列，包括：将所述特征序列分别从正向和反向输入所述至少一层双向循环网络，生成两个候选特征序列；将所述两个候选特征序列按空间对应关系合并，得到所述图像编码特征序列。7.根据权利要求1所述的方法，其特征在于，所述解码器由全连接层或多层感知器、联结时序连接分类模型组成，或者，所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成。8.根据权利要求7所述的方法，其特征在于，当所述解码器由全连接层或多层感知器、时序连接分类模型组成，所述方法包括：将所述图像编码特征序列输入所述全连接层或多层感知器，获得与输入特征序列同样长度的分类概率分布向量；根据所述目标对象的解码规则，通过所述联结时序分类模型解码所述分类概率分布向量，生成所述每张所述目标场景图像的字符识别结果。2CN114155527A权利要求书2/4页9.根据权利要求7所述的方法，其特征在于，当所述解码器由全连接层或多层感知器、注意力机制和循环神经网络组成，包括：将所述图像编码特征序列中每个序列通过所述全连接层或多层感知器转换为各序列的权重向量；根据所述各序列的权重向量，通过注意力机制融合得到能够表征当前待识别的字符的特征向量；将待识别的字符的特征向量送入所述循环神经网络中进而依次得到所述每张所述目标场景图像的字符识别结果。10.根据权利要求1所述的方法，其特征在于，将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果，包括：综合所述字符识别结果，所述多帧综合模块判断是否得到稳定识别结果，若是，完成识别流程并输出所述最终字符识别结果，若否，则返回所述编码器和所述解码器重复识别流程，其

相关资料

一种场景文本识别方法和装置.pdf

本发明公开了一种场景文本识别方法和装置。其中，该方法包括：获取多张目标场景图像，其中，所述目标场景图像包含目标对象；将每张所述目标场景图像依次输入编码器进行特征提取和编码，生成图像编码特征序列；通过解码器解码所述图像编码特征序列，生成每张所述目标场景图像的字符识别结果；将多帧所述字符识别结果输入多帧综合模块，确定最终字符识别结果，解决现有技术场景文本识别准确率低、识别稳定性低、对采集图像要求高和抗攻击性差的技术问题。

2023-07-24

806KB

一种场景识别方法和装置.pdf

本公开涉及一种场景识别方法和装置，其中，场景识别方法包括获取步骤，获取待识别帧图像的特征值，待识别帧图像包括当前帧图像和在先帧图像，在先帧图像为当前帧图像的前第N帧图像；判断步骤，根据比较特征值相似度与阈值，判断是否执行场景识别步骤，其中特征值相似度为当前帧图像的特征值与在先帧图像的特征值之间的相似度；场景识别步骤包括，基于当前帧图像，进行场景识别。通过本公开的一种场景识别方法，可以减少场景识别次数，进而有效降低耗电量。

2024-01-10

388KB

一种文本识别方法和装置.pdf

本发明公开了文本识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括获取文本图像进行识别，得到候选字符集和对应的字符识别概率；利用形近字列表扩展候选字符集，以基于字符共现矩阵对扩展后的候选字符集，根据每个文本行中所有字符识别概率和转移概率，得到计算结果集，将计算结果集中最大数值对应的文本行作为输出文本；将所述输出文本通过词向量模型生成语义相似词列表，遍历所述语义相似词列表，利用形近字列表筛选出包括形近字的词，以计算原始词与语义相似且形近的词的共现概率，如果共现概率小于预设第一概率阈值则输出形近词

2023-06-14

984KB

一种文本识别方法和装置.pdf

本发明公开了一种文本识别方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：使用文字识别模型对图片进行文字识别处理得到初步识别结果；将所述初步识别结果与预设的文本集合列表进行相似度比较，得到满足要求的目标文本列表；根据所述满足要求的目标文本列表对所述初步识别结果进行修正，得到最终的文本识别结果。该实施方式实现了将文字识别的初步识别结果与预设的文本集合列表进行相似度比较，以对初步识别结果进行修正，提高了相似文本的识别准确率，保证了文本识别结果的可靠性，从而更好的应用于实际场景。

2023-07-24

732KB

场景对话文本识别方法、装置以及终端.pdf

本发明提出一种场景对话文本识别方法、装置以及终端。其中，该方法包括：将场景对话文本输入至长短记忆型递归神经网络模型中，得到对话语义连贯特征分数；将场景对话文本输入至特征抽取器中，生成对话特征参量；将对话语义连贯特征分数和对话特征参量输入至梯度提升数融合模型中，得到优质交互的概率值；如果优质交互的概率值大于优质交互阈值时，则场景对话文本是优质交互文本。有效的挖掘了场景对话文本中的语义信息，并将语义信息和其它的对话特征参量融合在一起，对场景对话文本进行识别，给多轮对话的场景对话文本打上优质或者非优质的标签。

2023-08-30

619KB