一种招标网页的正文抽取方法、装置及存储介质-豆柴文库

一种招标网页的正文抽取方法、装置及存储介质.pdf

2023-07-21

10金币

659KB

15页

Jo****31

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115098812A(43)申请公布日2022.09.23(21)申请号202210163751.XG06F40/14(2020.01)(22)申请日2022.02.22G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人杭州未名信科科技有限公司G06Q30/08(2012.01)地址311200浙江省杭州市萧山区宁围街道钱江世纪公园C区1幢101室申请人浙江省北大信息技术高等研究院(72)发明人潘帅陈家银张伟陈曦麻志毅(74)专利代理机构北京辰权知识产权代理有限公司11619专利代理师付婧(51)Int.Cl.G06F16/958(2019.01)G06F16/953(2019.01)G06F16/35(2019.01)权利要求书2页说明书9页附图3页(54)发明名称一种招标网页的正文抽取方法、装置及存储介质(57)摘要本申请涉及数据处理技术领域，更为具体来说，本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括：为待抽取的招标网页构建DOM树；确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点；从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点，并将所述最优节点对应的文本存入待筛选文本集合，所述待筛选文本集合中包括多个层级对应的最优节点的文本；对待筛选文本集合进行规则筛选，得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题，大大地提升了效率，缩小了空间，又融合传统特征、深度学习算法及规则筛选的方式得到目标正文，从而提升了抽取正文的准确率。CN115098812ACN115098812A权利要求书1/2页1.一种招标网页的正文抽取方法，其特征在于，所述方法包括：为待抽取的招标网页构建DOM树；确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点；从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点，并将所述最优节点对应的文本存入待筛选文本集合，所述待筛选文本集合中包括多个层级对应的最优节点的文本；对待筛选文本集合进行规则筛选，得到目标正文。2.根据权利要求1所述的招标网页的正文抽取方法，其特征在于，所述从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点，包括：若所述第一节点与所述第二节点相同，则将所述第一节点确定为最优节点；若所述第一节点与所述第二节点不相同，则基于预设卷积神经网络模型从所述第一节点和所述第二节点中选择最优节点。3.根据权利要求2所述的招标网页的正文抽取方法，其特征在于，若所述第一节点与所述第二节点相同，则将所述第一节点确定为最优节点之后，还包括：将所述第一节点的子节点构成的层级确定为当前层级，从所述确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点的步骤循环执行，以确定出所述多个层级对应的最优节点。4.根据权利要求2所述的招标网页的正文抽取方法，其特征在于，基于预设卷积神经网络模型从所述第一节点和所述第二节点中选择最优节点，包括：将所述第一节点和所述第二节点对应的文本输入预设卷积神经网络模型中，输出所述第一节点和所述第二节点对应的文本分类结果；根据所述第一节点和所述第二节点对应的文本分类结果，从所述第一节点和所述第二节点中选择最优节点。5.根据权利要求4所述的招标网页的正文抽取方法，其特征在于，所述根据所述第一节点和所述第二节点对应的文本分类结果，从所述第一节点和所述第二节点中选择最优节点，包括：若所述第一节点和所述第二节点对应的文本分类结果均为非正文，则选择p标签数最多的节点作为最优节点；若所述第一节点和所述第二节点对应的文本分类结果均不是非正文，则选择非正文标签中概率最小的节点作为最优节点；若所述第一节点对应的文本分类结果为非正文，则选择所述第二节点作为最优节点；若所述第二节点对应的文本分类结果为非正文，则选择所述第一节点作为最优节点。6.根据权利要求1所述的招标网页的正文抽取方法，其特征在于，确定出所述DOM树当前层级中节点分数最高的第一节点，包括：基于文本密度与符号密度计算出DOM树当前层级所有节点的节点分数；从当前层级所有节点中选择节点分数最高的节点作为第一节点。7.根据权利要求6所述的招标网页的正文抽取方法，其特征在于，所述基于文本密度与符号密度计算出DOM树当前层级所有节点的节点分数，公式为：2CN115098812A权利要求书2/2页其中，td表示节点的文本密度，sbd表示节点的符号密度，p表示p标签的数量，ntd表示当前层级下文本密度集合，np表示当前层级下p标签数量集合，nsbd表示当前层级下符号密度集合。8.根据权利要求1所述的招标网页的正文抽取方法，其特征在于

相关资料

一种招标网页的正文抽取方法、装置及存储介质.pdf

本申请涉及数据处理技术领域，更为具体来说，本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括：为待抽取的招标网页构建DOM树；确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点；从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点，并将所述最优节点对应的文本存入待筛选文本集合，所述待筛选文本集合中包括多个层级对应的最优节点的文本；对待筛选文本集合进行规则筛选，得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题，大大地提升了效率，缩小了空间，

2023-07-21

659KB

网页正文抽取方法及装置.pdf

本发明公开了网页正文抽取方法及装置，通过下载网页页面，根据所述网页页面获取网页源代码，根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树，采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域，基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料，能有效避免现有抽取技术中人工规则和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。

2024-01-06

314KB

基于DOM树的正文抽取方法、装置、设备及存储介质.pdf

本发明公开了一种基于DOM树的正文抽取方法、装置、设备及存储介质,通过获取待抽取网页中正文信息块对应的DOM树的各节点路径,根据各节点路径确定中心文本区间;根据预设编号集获取所述中心文本区间内的缺失编号,将所述缺失编号添加至所述中心文本区间的中心文本中,获得连续中心文本区间;遍历所述连续中心文本区间的节点路径下的各叶子节点,抽取各叶子节点的文本信息;将各文本信息进行连接组合,获得所述待抽取网页的正文文本信息,提高了网页正文信息抽取的准确率,提高了网页正文信息抽取的速度和效率,节省了信息抽取的时间,提升了用

2023-05-10

657KB

网页信息抽取方法、装置、电子设备及存储介质.pdf

本发明提供一种网页信息抽取方法、装置、电子设备及存储介质，网页信息抽取方法应用于图文网页，图文网页至少包括图文正文，图文正文至少包括图文主体，网页信息抽取方法包括：获取待抽取图文网页，并将待抽取图文网页渲染为html格式图文网页；基于html格式图文网页，得到与待抽取图文网页对应的dom节点树，其中，dom节点树包括多个节点，节点包括节点信息特征；基于节点信息特征，将多个节点进行聚类得到多个节点簇；确定节点簇的信息量，并基于信息量，确定与图文主体对应的图文主体节点簇；基于图文主体节点簇，抽取图文正文。通过

2024-01-06

947KB

网页正文获取方法、装置、存储介质及电子设备.pdf

本公开提供了一种网页正文获取方法、装置、存储介质及电子设备，涉及互联网技术领域。该方法包括：获取目标网页的网页源码；根据网页源码构建对应的DOM树；根据DOM树中各个子节点的文本密度，生成对应的节点列表；针对目标网页中包含的至少一个标题中的每个标题，在节点列表中存在与当前标题匹配的正文节点的情况下，至少根据正文节点对应的正文内容与正文节点对应的正文标题在目标网页中的位置关系，定位正文内容在目标网页中的位置并获取正文内容。

2023-07-24

667KB