基于图像的文本识别方法、装置、电子设备及介质-豆柴文库

基于图像的文本识别方法、装置、电子设备及介质.pdf

2023-11-06

10金币

792KB

21页

小寄****淑k

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共21页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113869305A(43)申请公布日2021.12.31(21)申请号202010621847.7(22)申请日2020.06.30(71)申请人北京搜狗科技发展有限公司地址100084北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间(72)发明人韦涛王淼(74)专利代理机构北京华沛德权律师事务所11302代理人房德权(51)Int.Cl.G06K9/32(2006.01)G06K9/46(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书12页附图6页(54)发明名称基于图像的文本识别方法、装置、电子设备及介质(57)摘要本说明书实施例公开了一种基于图像的文本识别方法，获取包含有文本数据的图像；使用轻量级卷积神经网络对所述图像进行特征提取，得到特征图；根据在高度方向上拆分所述特征图得到的高度序列特征图集，获取序列化特征；对所述序列化特征进行文本识别，得到识别结果；由于轻量级CNN采用了采用深度可分离卷积，能够较小计算量提高计算速度并降低内存使用率；以及序列化特征中包含了高度方向的特征向量，在保留了原有高度方向的特征向量的情况下，使得保留的原有特征更多，在保留的原有特征越多的基础上，其识别的准确率也会随之提高；如此，能够在减小计算量的情况提高识别的准确率。CN113869305ACN113869305A权利要求书1/2页1.一种基于图像的文本识别方法，其特征在于，包括：获取包含有文本数据的图像；使用轻量级卷积神经网络对所述图像进行特征提取，得到特征图，其中，所述轻量级卷积神经网络包含深度可分离卷积；根据在高度方向上拆分所述特征图得到的高度序列特征图集，获取序列化特征，其中，高度序列特征图集包含至少2个高度上的特征图；对所述序列化特征进行文本识别，得到识别结果。2.如权利要求1所述的方法，其特征在于，所述获取包含有文本数据的图像，包括：接收扫描装置发送的所述图像，所述图像是所述扫描装置扫描得到的。3.如权利要求2所述的方法，其特征在于，所述使用轻量级卷积神经网络对所述图像进行特征提取，得到特征图过程中，所述方法还包括：若轻量级卷积神经网络包括Squeeze-and-Excitation模块，轻量级卷积神经网络在使用Squeeze-and-Excitation模块时，采用最大池化的通道注意力机制。4.如权利要求3所述的方法，其特征在于，所述使用轻量级卷积神经网络对所述图像进行特征提取，得到特征图过程中，所述方法还包括：若轻量级卷积神经网络采用新激活函数，且所述新激活函数在输入变量的值大于预设值，则确定对应的输出变量为所述预设值，所述预设值为不小于2的值；若输入变量的值位于设定取值范围内时，确定对应的输出变量等于输入变量，其中，所述设定取值范围为大于0且不大于所述预设值的范围；以及在输入变量的值小于O时，确定对应的输出变量为预设参数与输入变量的乘积。5.如权利要求4所述的方法，其特征在于，所述对所述序列化特征进行文本识别，得到识别结果，包括：使用奇异值分解对所述序列化特征进行文本识别，得到识别结果。6.如权利要求5所述的方法，其特征在于，所述使用奇异值分解对所述序列化特征进行文本识别，得到识别结果，包括：将所述序列化特征映射为分类概率的矩阵进行拆分，拆分得到M个矩阵，其中，M为不小于2的整数；根据所述M个矩阵和所述序列化特征进行文本识别，得到所述识别结果。7.一种基于图像的文本识别装置，其特征在于，包括：图像获取模块，获取包含有文本数据的图像；特征图获取模块，用于使用轻量级卷积神经网络对所述图像进行特征提取，得到特征图，其中，所述轻量级卷积神经网络包含深度可分离卷积；序列化特征获取模块，用于根据在高度方向上拆分所述特征图得到的高度序列特征图集，获取序列化特征，其中，高度序列特征图集包含至少2个高度上的特征图；识别模块，用于对所述序列化特征进行文本识别，得到识别结果。8.如权利要求7所述的装置，其特征在于，所述图像获取模块，用于接收扫描装置发送的所述图像，所述图像是所述扫描装置扫描得到的。9.一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器2CN113869305A权利要求书2/2页执行所述一个或者一个以上程序包含如权利要求1-6任一权项所述的方法步骤。10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至6中一个或多个所述的基于图像的文本识别方法。3CN113869305A说明书1/12页基于图像的文本识别方法、装置、电子设备及介质技术领域[0001

相关资料

基于图像的文本识别方法、装置、电子设备及介质.pdf

本说明书实施例公开了一种基于图像的文本识别方法，获取包含有文本数据的图像；使用轻量级卷积神经网络对所述图像进行特征提取，得到特征图；根据在高度方向上拆分所述特征图得到的高度序列特征图集，获取序列化特征；对所述序列化特征进行文本识别，得到识别结果；由于轻量级CNN采用了采用深度可分离卷积，能够较小计算量提高计算速度并降低内存使用率；以及序列化特征中包含了高度方向的特征向量，在保留了原有高度方向的特征向量的情况下，使得保留的原有特征更多，在保留的原有特征越多的基础上，其识别的准确率也会随之提高；如此，能够在减

2023-11-06

792KB

基于文本图像的识别方法、装置、设备和介质.pdf

本申请涉及一种基于文本图像的识别方法、装置、设备和介质。所述方法包括：获取待识别的文本图像；将文本图像输入至分割模型的编码结构，通过编码结构中的至少一个的编码单元依次对文本图像进行编码处理，得到与文本图像对应的第一特征图；其中，编码结构中包括至少一个的可变形卷积；获取各编码单元在编码处理的过程中分别产生的中间编码特征图；通过分割模型中的解码结构，并根据各中间编码特征图对第一特征图进行解码处理，得到对应的第二特征图；根据第二特征图进行像素级分类处理，以识别文本图像中的文本。采用本方法能够提高提取特征图的精准

2023-11-12

1KB

文本识别方法、装置、介质及电子设备.pdf

本公开涉及人工智能和图像识别领域，揭示了一种文本识别方法、装置、介质及电子设备。该方法包括：获取待识别图片；对所述待识别图片进行文本检测，得到包含目标文本的文本区域图像；将所述文本区域图像进行分割，得到多个文本子区域图像；利用第一文本识别模型对各个所述文本子区域图像分别进行识别，得到各所述文本子区域图像分别对应的文本识别内容；根据各所述文本子区域图像分别对应的文本识别内容，生成所述待识别图片对应的目标识别结果。此方法下，大大降低了单个识别区域的大小，减少了识别区域中包含的信息量，可以大幅度提升模型识别准确

2023-07-25

731KB

基于文本生成图像的方法、装置、电子设备和介质.pdf

本公开提供了一种基于文本生成图像的方法、装置、电子设备和介质,涉及知识图谱、自然语言处理等人工智能技术领域,可应用于智能创作、智慧政务等场景。实现方案为:获取第一文本,并基于多种规则对第一文本进行扩充以得到多个第二文本,其中,多种规则用于在不同维度上对第一文本进行扩充;基于多个第二文本生成对应的多个图像;对第一文本进行编码,以确定第一文本对应的第一向量;对多个图像中的每一个图像进行编码,以确定每一个图像对应的第二向量,其中,第一向量和每一个图像对应的第二向量位于同一语义空间;以及基于第一向量和每一个图像对

2023-04-24

724KB

图像中的文本识别方法、装置、设备及存储介质.pdf

本公开涉及一种图像中的文本识别方法、装置、设备及存储介质。本公开通过获取目标图像，并确定该目标图像中包含至少一行文本的子图像。进一步，将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型，由于子图像含有较为直观且准确的信息，从而使得多模态模型的输入中增加了原始视觉信息，使得多模态模型可以根据子图像对文本标注任务进行增强和指导，从而使得多模态模型可以确定出每个字符较为准确的标签。进一步，根据每个字符的标签可以对该至少一行文本进行准确的断句，尤其是对有歧义的文本行的断句处理效果较好，避免将图像中的多段

2023-07-24

611KB