网页正文抽取方法及装置-豆柴文库

网页正文抽取方法及装置.pdf

2024-01-06

10金币

314KB

9页

雅云****彩妍

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107436931A(43)申请公布日2017.12.05(21)申请号201710581136.X(22)申请日2017.07.17(71)申请人广州特道信息科技有限公司地址510000广东省广州市越秀区文德北路68号自编东方文德广场六层602号(72)发明人晋彤(74)专利代理机构广州三环专利商标代理有限公司44202代理人梁顺宜郝传鑫(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书5页附图1页(54)发明名称网页正文抽取方法及装置(57)摘要本发明公开了网页正文抽取方法及装置，通过下载网页页面，根据所述网页页面获取网页源代码，根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树，采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域，基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料，能有效避免现有抽取技术中人工规则和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。CN107436931ACN107436931A权利要求书1/2页1.一种网页正文抽取方法，其特征在于，包括步骤：下载网页页面，根据所述网页页面获取网页源代码，；根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树；采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域；基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料。2.如权利要求1所述的网页正文抽取方法，其特征在于，还包括步骤：按照实际视觉效果对所述网页页面的正文语料进行整合和排版。3.如权利要求1所述的网页正文抽取方法，其特征在于，所述基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料具体为：基于定位的文本域，识别所述文本域的模式；根据所述文本域的模式，析出所述DOM树的特征节点；根据所述DOM树的特征节点，抽取特征文本。4.如权利要求3所述的网页正文抽取方法，其特征在于，识别所述文本域的模式具体为：识别所述文本域为单域或多域，从而进行自动适配。5.如权利要求3所述的网页正文抽取方法，其特征在于，识别所述文本域的模式具体为：对大量的网页结构进行模式训练，提取正文在页面的分布模型；其中，所述分布模型由输入信息自适应学习增加新特征；将所述网页页面的DOM树进行分析处理，将所述DOM树的每一节点进行分块聚类获得节点聚类结果；将所述节点聚类结果通过所述分布模型抽取出必要信息，通过所述必要信息获得所述文本域的模式。6.一种网页正文抽取装置，其特征在于，包括：网页源代码获取模块，用于下载网页页面，根据所述网页页面获取网页源代码；视觉树生成模块，用于根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树；文本域定位模块，用于采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域；正文语料获取模块，用于基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料。7.如权利要求6所述的网页正文抽取装置，其特征在于，还包括：整合模块，用于按照实际视觉效果对所述网页页面的正文语料进行整合和排版。8.如权利要求6所述的网页正文抽取装置，其特征在于，所述正文语料获取模块包括：识别模块，用于基于定位的文本域，识别所述文本域的模式；特征节点析出模块，用于根据所述文本域的模式，析出所述DOM树的特征节点；特征文本抽取模块，用于根据所述DOM树的特征节点，抽取特征文本。2CN107436931A权利要求书2/2页9.如权利要求8所述的网页正文抽取装置，其特征在于，所述识别所述文本域的模式具体为：识别所述文本域为单域或多域，从而进行自动适配。10.如权利要求8所述的网页正文抽取装置，其特征在于，所述识别模块包括：分布模型提取模块，用于对大量的网页结构进行模式训练，提取正文在页面的分布模型；其中，所述分布模型由输入信息自适应学习增加新特征；聚类模块，用于将所述网页页面的DOM树进行分析处理，将所述DOM树的每一节点进行分块聚类获得节点聚类结果；模式获取模块，用于将所述节点聚类结果通过所述分布模型抽取出必要信息，通过所述必要信息获得所述文本域的模式。3CN107436931A说明书1/5页网页正文抽取方法及装置技术领域[0001]本发明涉及计算机领域，尤其涉及一种网页正文抽取方法及装置。背景技术[0002]在新闻(或者资讯)搜索领域，新闻正文抽取是项必不可少的环节，其正文抽取的质量高低决定了新闻搜索的质量和用户体验。目前新闻正文抽取方法格式各样，主要有基于模板(或包装器)方式抽取。基于模板方式抽取：首先定义模板，然后编写程

相关资料

网页正文抽取方法及装置.pdf

本发明公开了网页正文抽取方法及装置，通过下载网页页面，根据所述网页页面获取网页源代码，根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树，采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域，基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料，能有效避免现有抽取技术中人工规则和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。

2024-01-06

314KB

基于DIV位置的网页正文抽取方法和装置.pdf

本发明公开了一种基于DIV位置的网页正文抽取方法和装置。其中，该方法包括利用HTML页面在DOM树中的DIV块信息重新构建DIV块；保留重新构建DIV块中的原子DIV块，原子DIV块为除其本身之外不包含任何其他DIV块的DIV块；对每个原子DIV块进行参数分析，根据分析结果选取出包含网页正文的DIV块；对包含网页正文的DIV块进行内容提取，以获取网页正文。本发明能够防止同一DIV块被重复分析，从而提高了分析效率。同时，根据每个原子DIV块的参数来选取包含网页正文的DIV块，以有效去除HTML网页中的噪音信

2023-11-25

746KB

一种招标网页的正文抽取方法、装置及存储介质.pdf

本申请涉及数据处理技术领域，更为具体来说，本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括：为待抽取的招标网页构建DOM树；确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点；从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点，并将所述最优节点对应的文本存入待筛选文本集合，所述待筛选文本集合中包括多个层级对应的最优节点的文本；对待筛选文本集合进行规则筛选，得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题，大大地提升了效率，缩小了空间，

2023-07-21

659KB

网页正文抽取的研究与实现.docx

网页正文抽取的研究与实现随着互联网的普及和发展，信息获取的要求越来越高。在网络信息中，往往包含着大量的无用信息，如广告、导航、页眉页脚等。因此，如何从网页中提取正文成为一个研究难点。本文将围绕网页正文抽取的研究与实现进行探讨，并着重介绍当前常用的正文抽取算法。一、网页正文抽取的研究现状网页是以HTML的形式发布的，HTML的语义结构表达是非常丰富的，因此从HTML中提取正文是一件困难的事情。当前，网页正文抽取主要有基于规则、基于机器学习和混合方法等三种方法。1.基于规则的方法基于规则的方法依靠预定义的规则

2024-10-16

11KB

Web网页正文抽取方法研究的任务书.docx

Web网页正文抽取方法研究的任务书任务书任务背景：随着互联网的发展和应用越来越广泛，对于Web网页正文抽取的需求也越来越迫切。Web网页正文抽取是指从Web网页中提取出主体内容区域的技术。对于一些系统应用，需要提取出Web网页的正文信息，如：搜索引擎检索结果中仅保留正文区域，抽取网页的主体内容并存储。因此，Web网页正文抽取技术的研究和应用已经成为了机器学习、自然语言处理等领域的研究重点。任务描述：本次任务旨在研究Web网页正文抽取方法，为此需要完成以下任务：1.对Web网页正文抽取的相关技术进行深入研究

2024-10-15

11KB