预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115100671A(43)申请公布日2022.09.23(21)申请号202210461647.9(22)申请日2022.04.28(71)申请人青岛海尔科技有限公司地址266101山东省青岛市崂山区海尔路1号海尔工业园申请人海尔智家股份有限公司(72)发明人刘畅(74)专利代理机构北京康信知识产权代理有限责任公司11240专利代理师江舟(51)Int.Cl.G06V30/413(2022.01)G06V10/22(2022.01)权利要求书2页说明书10页附图3页(54)发明名称文本的提取方法和装置、存储介质及电子装置(57)摘要本申请公开了一种文本的提取方法和装置、存储介质及电子装置,涉及智能家居领域,方法包括:在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本。CN115100671ACN115100671A权利要求书1/2页1.一种文本的提取方法,其特征在于,包括:在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本。2.根据权利要求1所述的方法,其特征在于,根据所述第一文本框面积确定所述第一文本框中文本的第一字号,包括:确定所述第一文本框中的文本字数;根据所述第一文本框面积和所述文本字数确定任一文字的文字面积;通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号,并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。3.根据权利要求1所述的方法,其特征在于,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本之前,所述方法还包括:确定所述目录标识的第一标题类型,并通过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号;在所述第一字号中确定与所述第二字号一致的字号,以及在所述第一文本中确定与所述第二字号一致的字号对应的第二文本;在所述第二文本中确定所述目录标识。4.根据权利要求1所述的方法,其特征在于,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本,包括:在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定所述目录标识所对应的目录文本。5.根据权利要求1所述的方法,其特征在于,根据所述目录文本在所述数字图书格式文件中提取所述目标文本之前,所述方法还包括:提取所述目录文本的第一文字内容和第二文字内容,其中,所述第一文字内容用于指示所述数字图书格式文本的标题,所述第二文字内容用于指示所述第二文字内容对应的第一页码;建立所述第一文字内容和所述第二文字内容的第三对应关系;根据所述第三对应关系对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。6.根据权利要求5所述的方法,其特征在于,根据所述第三对应关系对所述数字图书格式文本进行分割,包括:确定标题文本的第二标题类型,并通过标题类型与字号的第二对应关系确定所述标题文本对应的第三字号,其中,所述标题文本的文本内容与所述目录文本的第一文本内容相同;根据所述第一字号和所述标题文本对应的第三字号在所述第一文本中确定所述标题2CN115100671A权利要求书2/2页文本;根据所述第三对应关系确定所述标题文本对应的页面的第二页码,并根据所述第二页码对所述数字图书格式文本进行分割,以得到每个标题文本对应的子数字图书格式文本。7.根据权利要求6所述的方法,其特征在于,根据所述目录文本在所述数字图书格式文件中提取所述目标文本,包括:确定所述目标文本对应的目标标题文本,以及确定所述目标标题文本对应的目标子数字图书格式文本,其中,所述标题文本至少包括:目标标题文本;通过光学字符识别技术获取所述目标子数字图书格式文件中的第二文本、所述第二文本分别对应的第二文本框以及所述第二文本框对应的第二面积;根据所述第二面积确定所述第二文本框中文本的第二字号;根据所述第二字号在所述第二文本中提取目标文本。8.一种文本的提取装置,