预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114187594A(43)申请公布日2022.03.15(21)申请号202111521025.2G06N3/08(2006.01)(22)申请日2021.12.13G06V10/82(2022.01)G06V30/19(2022.01)(71)申请人奇安信科技集团股份有限公司地址100032北京市西城区新街口外大街28号102号楼3层332号申请人网神信息技术(北京)股份有限公司(72)发明人万鸣王占一李宁(74)专利代理机构成都维飞知识产权代理有限公司51311代理人张巧燕(51)Int.Cl.G06V30/148(2022.01)G06V30/40(2022.01)G06K9/62(2022.01)G06N3/04(2006.01)权利要求书3页说明书12页附图10页(54)发明名称文本识别模型的训练方法、文本识别方法、电子设备、存储介质(57)摘要本申请提供一种文本识别模型的训练方法、文本识别方法、电子设备、计算机可读存储介质,方法包括:获取目标文字的多条语料数据;多条语料数据包括RTL文字对应的第一语料数据和LTR文字对应的第二语料数据;根据多种组合方式,对第一语料数据和所述第二语料数据进行组合,获得与每一组合方式对应的组合语料数据;生成与每一组合语料数据对应的样本图片和标签,并基于样本图片和标签构建样本数据;根据样本数据对深度学习模型进行训练,得到文本识别模型。本申请方案,通过生成复杂的双向文本的样本数据,可以训练出对双向文本准确识别的文本识别模型。CN114187594ACN114187594A权利要求书1/3页1.一种文本识别模型的训练方法,其特征在于,包括:获取目标文字的多条语料数据;其中,所述多条语料数据包括RTL文字对应的第一语料数据和LTR文字对应的第二语料数据;根据多种组合方式,对所述第一语料数据和所述第二语料数据进行组合,获得与每一组合方式对应的组合语料数据;生成与每一组合语料数据对应的样本图片和字符串标签,并基于所述样本图片和字符串标签构建样本数据;根据所述样本数据对深度学习模型进行训练,得到文本识别模型。2.根据权利要求1所述的方法,其特征在于,所述获取目标文字的多条语料数据,包括:从所述目标文字的数据源,获取文字数据;从所述文字数据提取所述RTL文字的候选语料数据和所述LTR文字的候选语料数据;对所述RTL文字的候选语料数据和所述LTR文字的候选语料数据分别进行切割,获得满足字符长度限制条件的第一语料数据和第二语料数据。3.根据权利要求1所述的方法,其特征在于,所述生成与每一组合语料数据对应的样本图片和字符串标签,包括:针对每一组合语料数据,确定与所述组合语料数据中的目标字符串对应的字符串标签;针对每一组合语料数据,将所述组合语料数据中的目标字符串,绘制到背景图片上,得到所述组合语料数据对应的样本图片。4.根据权利要求3所述的方法,其特征在于,所述确定与所述组合语料数据中的目标字符串对应的字符串标签,包括:针对所述组合语料数据中的第一语料数据,从所述第一语料数据中读取多个字符,并以指定顺序进行排序,以确定第一标签序列;其中,所述指定顺序与所述第一语料数据的字符读取顺序相反;针对所述组合语料数据中的第二语料数据,从所述第二语料数据中读取多个字符,并以所述第二语料数据的字符读取顺序进行排序,以确定第二标签序列;依据所述组合语料数据对应的组合方式,对所述组合语料数据对应的第一标签序列和第二标签序列进行拼接,获得所述字符串标签。5.根据权利要求3所述的方法,其特征在于,所述确定与所述组合语料数据中的目标字符串对应的字符串标签,包括:针对所述组合语料数据中的第二语料数据,将所述第二语料数据中的字符串进行顺序反转操作,获得第一子字符串;依据所述组合语料数据对应的组合方式相反的拼接顺序,对所述第一子字符串和所述组合语料数据中第一语料数据的第二子字符串进行拼接,并对拼接后的字符串进行顺序反转操作;其中,所述第二子字符串为所述第一语料数据中所包含的字符串;针对顺序反转操作后的字符串,以从左至右的顺序,逐个读取字符并确定对应的字符标签,并以多个字符标签构成的第三标签序列,作为所述字符串标签。6.根据权利要求3所述的方法,其特征在于,所述将所述组合语料数据中的目标字符串,绘制到背景图片上,得到所述组合语料数据对应的样本图片,包括:2CN114187594A权利要求书2/3页针对所述组合语料数据中的第一语料数据,将所述第一语料数据中的字符串进行顺序反转操作,获得第三子字符串;依据所述组合语料数据对应的组合方式,对所述第三子字符串和所述组合语料数据中第二语料数据的第四子字符串进行拼接;其中,所述第四子字符串为所述第二语料数据中所包含的字符串