预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114202647A(43)申请公布日2022.03.18(21)申请号202210139958.3(22)申请日2022.02.16(71)申请人阿里巴巴达摩院(杭州)科技有限公司地址310023浙江省杭州市余杭区五常街道文一西路969号3幢5层516室(72)发明人廖敏鹏(74)专利代理机构北京开阳星知识产权代理有限公司11710代理人张子青(51)Int.Cl.G06V10/22(2022.01)G06V30/10(2022.01)权利要求书2页说明书10页附图7页(54)发明名称图像中的文本识别方法、装置、设备及存储介质(57)摘要本公开涉及一种图像中的文本识别方法、装置、设备及存储介质。本公开通过获取目标图像,并确定该目标图像中包含至少一行文本的子图像。进一步,将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型,由于子图像含有较为直观且准确的信息,从而使得多模态模型的输入中增加了原始视觉信息,使得多模态模型可以根据子图像对文本标注任务进行增强和指导,从而使得多模态模型可以确定出每个字符较为准确的标签。进一步,根据每个字符的标签可以对该至少一行文本进行准确的断句,尤其是对有歧义的文本行的断句处理效果较好,避免将图像中的多段文本识别为一段文本,以及避免后续的文本理解或处理出错。CN114202647ACN114202647A权利要求书1/2页1.一种图像中的文本识别方法,其中,所述方法包括:获取目标图像;确定所述目标图像中包含至少一行文本的子图像;将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型,通过所述多模态模型确定所述每个字符的标签,所述每个字符的标签用于对所述至少一行文本进行断句。2.根据权利要求1所述的方法,其中,所述字符的标签与所述字符之后待添加的标点符号相关。3.根据权利要求1所述的方法,其中,将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型,通过所述多模态模型确定所述每个字符的标签,包括:获取所述子图像的图像特征;将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型,通过所述多模态模型确定所述每个字符的标签。4.根据权利要求3所述的方法,其中,将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型,通过所述多模态模型确定所述每个字符的标签,包括:将所述图像特征、以及所述至少一行文本中每个字符的表示向量输入多模态模型,使得所述多模态模型根据所述每个字符的表示向量确定所述至少一行文本的语义信息,并根据所述语义信息和所述图像特征确定所述每个字符的标签。5.根据权利要求1所述的方法,其中,所述方法还包括:根据所述至少一行文本中的每个字符、以及所述每个字符的标签,生成包含标点符号的自然语言文本。6.一种图像中的文本识别方法,其中,所述方法应用于终端,所述方法包括:从服务器接收目标图像,或者通过拍摄装置采集所述目标图像;确定所述目标图像中包含至少一行文本的子图像;向所述服务器发送所述子图像、以及所述至少一行文本中的每个字符,所述服务器包括多模态模型,所述服务器用于将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型,并通过所述多模态模型确定所述每个字符的标签;从所述服务器接收所述每个字符的标签,并根据所述每个字符的标签对所述至少一行文本进行断句。7.一种图像中的文本识别方法,其中,所述方法应用于服务器,所述方法包括:从终端接收目标图像;确定所述目标图像中包含至少一行文本的子图像;将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型,通过所述多模态模型确定所述每个字符的标签;根据所述每个字符的标签对所述至少一行文本进行断句,得到断句后的结果,并将所述断句后的结果发送给终端;或者,将所述每个字符的标签发送给所述终端,以使所述终端根据所述每个字符的标签对所述至少一行文本进行断句,得到断句后的结果。8.一种图像中的文本识别装置,其中,包括:获取模块,用于获取目标图像;2CN114202647A权利要求书2/2页第一确定模块,用于确定所述目标图像中包含至少一行文本的子图像;第二确定模块,用于将所述子图像、以及所述至少一行文本中的每个字符输入多模态模型,通过所述多模态模型确定所述每个字符的标签,所述每个字符的标签用于对所述至少一行文本进行断句。9.一种终端,其中,包括:通信组件,用于与服务器通信;拍摄装置,用于采集目标图像;存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求6所述的方法。10.一种服务器,其中,包括:通信组件,用于与终端通信;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被