预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113850056A(43)申请公布日2021.12.28(21)申请号202111052073.1G06F40/221(2020.01)(22)申请日2021.09.08G06F40/169(2020.01)(71)申请人南方电网调峰调频发电有限公司信息通信分公司地址511492广东省广州市番禺区东环街番禺大道北555号番禺节能科技园内街天安总部中心1号楼601房(72)发明人佘俊赵增涛余少锋廖崇阳罗勇(74)专利代理机构成都鱼爪智云知识产权代理有限公司51308代理人梁悦敏(51)Int.Cl.G06F40/154(2020.01)G06F40/258(2020.01)权利要求书1页说明书6页附图2页(54)发明名称一种基于关键词拆分技术的文档关键信息提取方法和系统(57)摘要本发明提出了一种基于关键词拆分技术的文档关键信息提取方法和系统,涉及文档关键信息提取领域。该方法包括:将获取的目标文档转换成XML格式文档;基于关键词拆分检测技术对XML格式文档进行关键信息提取。通过获取目标文档并将目标文档转换成XML格式文档;XML为可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言。因此将目标文档转换成XML格式文档,便于后续提取信息。基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中,可以从连续的自然语言文本中,抽取出结构化的关键字段信息。解决文档信息量大且过于繁杂、无法让用户快速获取需要的信息的问题。CN113850056ACN113850056A权利要求书1/1页1.一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,包括:将获取的目标文档转换成XML格式文档;基于关键词拆分检测技术对XML格式文档进行关键信息提取。2.根据权利要求1所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,所述目标文档包括html文档、pdf文档和word文档。3.根据权利要求1所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,所述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括:基于关键词拆分检测技术对XML格式文档的关键字进行提取。4.根据权利要求3所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,基于关键词拆分检测技术对XML格式文档的关键字进行提取的方法包括:由文章开头开始向后逐段扫描查询含有关键词或关键字的字样,对含有关键词或关键字的字样的段落进行标记得到标记的段落;若标记的段落中关键词或关键字的字样在段首则判定为关键字段;获取关键字段中的各关键词。5.根据权利要求1所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,所述基于关键词拆分检测技术对XML格式文档进行关键信息提取的方法包括:对XML格式文档的标题进行提取。6.根据权利要求5所述的一种基于关键词拆分技术的文档关键信息提取方法,其特征在于,对XML格式文档的标题进行提取的方法包括:判断正文开始位置;从正文开始位置向前搜索在预设字数内的小段落标记得到多个标记小段落;从多个标记小段落寻找居中的小段落,判定为居中的段落为标题。7.一种基于关键词拆分技术的文档关键信息提取系统,其特征在于,包括:转换模块,用于获取目标文档并将目标文档转换成XML格式文档;关键信息提取模块,用于基于关键词拆分检测技术对XML格式文档进行关键信息提取。8.根据权利要求7所述的一种基于关键词拆分技术的文档关键信息提取系统,其特征在于,所述转换模块还包括:标记模块,用于由文章开头开始向后逐段扫描查询含有关键词或关键字的字样,对含有关键词或关键字的字样的段落进行标记得到标记的段落;判定模块,用于若标记的段落中关键词或关键字的字样在段首则判定为关键字段;获取关键词模块,用于获取关键字段中的各关键词。9.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器和数据总线;其中:所述处理器与所述存储器通过所述数据总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令以执行如权利要求1至6任一所述的方法。10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如权利要求1至6任一所述的方法。2CN113850056A说明书1/6页一种基于关键词拆分技术的文档关键信息提取方法和系统技术领域[0001]本发明涉及文档关键信息提取领域,具体而言,涉及一种基于关键词拆分技术的文档关键信息提取方法和系统。背景技术[0002]目前对资料文档的文字提取存在两种方法,一种是利用OCR识别技术,将资料文档转换成图像,经过版面分析,行字切分、文字识别,将