预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111325195A(43)申请公布日2020.06.23(21)申请号202010097683.2(22)申请日2020.02.17(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人余红(74)专利代理机构北京晋德允升知识产权代理有限公司11623代理人万铁占(51)Int.Cl.G06K9/20(2006.01)权利要求书3页说明书14页附图8页(54)发明名称文本识别方法、装置及电子设备(57)摘要本说明书实施例公开了一种文本识别方法、装置及电子设备,其实质技术方案为,通过对待识别对象中的各行文字进行文字识别,可以基于识别出的各行文字分别得到文本块。针对文本块提取出所述文本块的块特征,判断相邻两行文本块的块特征是否达到预设特征条件,所述预设特征条件为利用训练样本确立的在相邻两行文本块属于同一文本信息时,所述相邻两行文本块的块特征所满足的特征条件。根据判断结果确定对所述相邻两行所述文本块的操作,所述操作包括合并成文本信息和不合并中的一种。CN111325195ACN111325195A权利要求书1/3页1.一种文本识别方法,包括:对待识别对象进行文字识别,基于识别出的各行文字分别得到文本块;提取所述文本块的块特征;判断相邻两行所述文本块的所述块特征是否达到预设特征条件,所述预设特征条件为利用训练样本确立的在相邻两行文本块属于同一文本信息时,所述相邻两行文本块的块特征所满足的特征条件;根据判断结果对所述相邻两行所述文本块执行操作,所述操作包括合并和不合并中的一种。2.如权利要求1所述的方法,所述待识别对象为图像。3.如权利要求1所述的方法,在对待识别对象进行文字识别之前,还包括:检测用户发布的业务信息;从所述业务信息中提取所述待识别对象。4.如权利要求1所述的方法,所述块特征包括各所述文本块的行高和相邻两行所述文本块之间的行距中的一种或两种。5.如权利要求4所述的方法,判断相邻两行所述文本块的所述块特征是否达到预设特征条件,包括:判断所述相邻两行所述文本块的行高不小于所述行距。6.如权利要求5所述的方法,判断所述相邻两行所述文本块的行高不小于所述行距,包括:判断所述相邻两行所述文本块的行高是否超过所述行距达到预设差值。7.如权利要求4所述的方法,判断相邻两行所述文本块的所述块特征是否达到预设特征条件,包括:判断相邻两行所述文本块的所述行高之差是否不大于预设行高差。8.如权利要求4所述的方法,根据判断结果对所述相邻两行所述文本块执行操作,包括:若所述判断结果为达到所述预设特征条件,则将所述相邻两行所述文本块合并为段落。9.一种文本识别方法,包括:对训练样本进行文字识别,基于识别出的各行文字分别得到文本块;提取所述文本块的块特征;利用所述文本块的块特征训练合并模型,以确定所述合并模型中的预设特征条件,以便在识别出待识别对象中相邻两行文本块的块特征时,判断相邻两行所述文本块的所述块特征是否达到所述预设特征条件,根据判断结果对所述相邻两行所述文本块执行操作,所述操作包括合并和不合并中的一种。10.如权利要求9所述的方法,在利用所述文本块的块特征训练合并模型之前,还包括:获取所述训练样本中的相邻两行所述文本块的合并信息,所述合并信息表征所述相邻两个所述文本块之间是否合并;根据所述合并信息对所述块特征进行标记。11.一种文本识别方法,包括:2CN111325195A权利要求书2/3页对待识别对象进行文字识别,基于识别出的各行文字分别得到文本块;提取所述文本块的块特征;利用合并模型对相邻两行所述文本块的块特征进行处理,得到所述相邻两行所述文本块是否达到预设特征条件的判断结果,所述合并模型是利用从训练样本中识别出的相邻两行文本块的块特征进行训练,以确定所述预设特征条件而得到的;根据判断结果对所述相邻两行所述文本块执行操作,所述操作包括合并和不合并中的一种。12.一种文本识别装置,包括:文字识别模块,对待识别对象进行文字识别,基于识别出的各行文字分别得到文本块;提取模块,提取所述文本块的块特征;判断模块,判断相邻两行所述文本块的所述块特征是否达到预设特征条件,所述预设特征条件为利用训练样本确立的在相邻两行文本块属于同一文本信息时,所述相邻两行文本块的块特征所满足的特征条件;执行模块,根据判断结果对所述相邻两行所述文本块执行操作,所述操作包括合并和不合并中的一种。13.一种文本识别装置,包括:文字识别模块,对训练样本进行文字识别,基于识别出的各行文字分别得到文本块;提取模块,提取所述文本块的块特征;训练模块,利用所述文本块的块特征训练合并模型,以确定所述合并模型中的预设特征条件,以便在识别出待