一种基于关键词拆分技术的文档关键信息提取方法和系统.pdf
淑然****by
在线预览结束,喜欢就下载吧,查找使用更方便
相关资料
一种基于关键词拆分技术的文档关键信息提取方法和系统.pdf
本发明提出了一种基于关键词拆分技术的文档关键信息提取方法和系统,涉及文档关键信息提取领域。该方法包括:将获取的目标文档转换成XML格式文档;基于关键词拆分检测技术对XML格式文档进行关键信息提取。通过获取目标文档并将目标文档转换成XML格式文档;XML为可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言。因此将目标文档转换成XML格式文档,便于后续提取信息。基于关键词拆分检测技术对XML格式文档进行关键信息提取。该步骤中,可以从连续的自然语言文本中,抽取出结构化的关键字段信息。解决文档信息量大
一种关键词提取方法和系统.pdf
本说明书实施例公开了一种关键词提取方法和系统,所述方法包括:获取目标文本;从所述目标文本中选择目标词语;将所述目标文本的信息以及当前选择的目标词语的位置信息输入关键词提取模型,得到该目标词语的去除或保留操作;执行该目标词语的去除或保留操作,得到操作后的目标文本;判断所述操作后的目标文本中是否存在未被执行所述操作的词语;若是,则以所述操作后的目标文本替换所述目标文本,从所述操作后的目标文本中选择其中一个所述未被执行所述操作的词语,以该词语作为所述当前选择的目标词语,重复执行上述输入关键词提取模型至判断的步骤
一种基于关键词的文档查询方法、装置、设备和存储介质.pdf
本发明涉及金融科技领域,特别地,涉及一种基于关键词的文档查询方法、装置、设备和存储介质。其中方法包括:将关键词拆分,得到至少一个关键字符;遍历所述当前文档中的所有字符,对所述当前文档中与所述关键字符一致的字符进行标记;按照字符在当前文档中的出现顺序,依次将当前文档中所有字符进行编号;通过滑动窗口以滑动步长在当前文档的所有字符上依编号进行滑动,提取每次滑动时滑动窗口对应的字符;根据整个滑动过程中提取到的所有字符,分析确定当前文档是否为用户所需的目标文档。本发明能够在用户所输入的关键词不准确的情况下,仍然能够
基于文档主题结构和词图迭代的关键词抽取方法研究.docx
基于文档主题结构和词图迭代的关键词抽取方法研究基于文档主题结构和词图迭代的关键词抽取方法研究摘要:关键词是文档的概述和主题的集中表示,对于文档理解、文档分类、信息检索等任务具有重要意义。本文提出了一种基于文档主题结构和词图迭代的关键词抽取方法,该方法结合了文档的主题结构和词图的信息,通过迭代的方式逐步改进关键词抽取的精度和准确性。实验证明,该方法在关键词抽取任务上具有较好的性能和效果。关键词:关键词抽取;文档主题结构;词图;迭代;性能分析1.引言关键词抽取是文本挖掘和自然语言处理领域的一个重要研究问题。关
基于短语向量的关键词抽取方法及系统.pdf
本发明涉及自然语言处理和深度学习技术领域,特别涉及一种基于短语向量的关键词抽取方法及系统。本发明的主要技术方案包括:对原始文本分词并标注词性,根据词性保留n元组,得到候选词项集;对候选关键词集合中包含的大量短语构建向量表示;计算各候选词项的主题权重;以候选词项作为图中的顶点,以候选词项的共现信息为边构造图,以候选词项之间的语义相似度和共现信息计算边的权重,迭代计算每个候选词项的得分并排序。本发明提供的关键词抽取方法及系统,既引入了文档中的主题信息,又通过短语间的语义相似度引入了上下文信息,更能够捕捉全文中