基于DIV位置的网页正文抽取方法和装置-豆柴文库

基于DIV位置的网页正文抽取方法和装置.pdf

2023-11-25

10金币

746KB

20页

努力****妙风

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共20页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN102479181A*(12)发明专利申请(10)申请公布号CN102479181A(43)申请公布日2012.05.30(21)申请号201010553327.3(22)申请日2010.11.22(71)申请人中国电信股份有限公司地址100032北京市西城区金融大街31号(72)发明人吴晔刘勋华谢亨骏李辉遒郭玲曹琳万东詹国强刘舟李晓佳(74)专利代理机构中国国际贸易促进委员会专利商标事务所11038代理人孙宝海(51)Int.Cl.G06F17/30(2006.01)权利要求书权利要求书2页2页说明书说明书88页页附图附图99页(54)发明名称基于DIV位置的网页正文抽取方法和装置(57)摘要本发明公开了一种基于DIV位置的网页正文抽取方法和装置。其中，该方法包括利用HTML页面在DOM树中的DIV块信息重新构建DIV块；保留重新构建DIV块中的原子DIV块，原子DIV块为除其本身之外不包含任何其他DIV块的DIV块；对每个原子DIV块进行参数分析，根据分析结果选取出包含网页正文的DIV块；对包含网页正文的DIV块进行内容提取，以获取网页正文。本发明能够防止同一DIV块被重复分析，从而提高了分析效率。同时，根据每个原子DIV块的参数来选取包含网页正文的DIV块，以有效去除HTML网页中的噪音信息，在很大程度上提高了从HTML网页中获取正文信息的准确度。CN1024798ACN102479181A权利要求书1/2页1.一种基于DIV位置的网页正文抽取方法，其特征在于，包括：利用HTML页面在DOM树中的DIV块信息重新构建DIV块；保留所述重新构建DIV块中的原子DIV块，所述原子DIV块为除其本身之外不包含任何其他DIV块的DIV块；对每个原子DIV块进行参数分析，根据分析结果选取出包含网页正文的DIV块；对所述包含网页正文的DIV块进行内容提取，以获取网页正文。2.根据权利要求1所述的方法，其特征在于，在对所述包含网页正文的DIV块进行内容提取之前，所述方法还包括：如果原子DIV块与所述包含网页正文的DIV块间隔预定间隙且位于所述包含网页正文的DIV块的正上方或正下方，则确定与所述包含网页正文的DIV块间隔预定间隙且位于所述包含网页正文的DIV块的正上方或正下方的DIV块为包含网页正文的DIV块。3.根据权利要求1所述的方法，其特征在于，所述利用HTML页面在DOM树中的DIV块信息重新构建DIV块的步骤包括：从所述HTML页面代码的起始处开始直至所述HTML页面代码的结束处获取两个DIV块开始标签之间的非DIV代码段；从所述HTML页面代码的起始处开始直至所述HTML页面代码的结束处获取两个DIV块结束标签之间的非DIV代码段；为获取的非DIV代码段补齐DIV块开始标签和DIV块结束标签。4.根据权利要求1所述的方法，其特征在于，保留所述重新构建DIV块中的原子DIV块的步骤包括：在所述重新构建DIV块中计算出每个DIV块相对页面BODY标签的层次值；根据计算出的层次值判断每个DIV块是否为所述原子DIV块；去除所述重新构建DIV块中的非原子DIV块。5.根据权利要求1所述的方法，其特征在于，对每个原子DIV块进行参数分析，根据分析结果选取出包含网页正文的DIV块的步骤包括：从多个原子DIV块中查找出横向宽度大于预定宽度的原子DIV块；从查找出的横向宽度大于预定宽度的原子DIV块中找出面积最大的DIV块作为所述包含网页正文的DIV块。6.根据权利要求1所述的方法，其特征在于，在重新构建DIV块之前，所述方法还包括：过滤所述HTML页面中的Javascript代码和冗余标签。7.一种基于DIV位置的网页正文抽取装置，其特征在于，包括：DIV块重构模块，用于利用HTML页面在DOM树中的DIV块信息重新构建DIV块；原子DIV块保留模块，与所述DIV块重构模块相连，用于保留所述重新构建DIV块中的原子DIV块，所述原子DIV块为除其本身之外不包含任何其他DIV块的DIV块；网页正文DIV块选取模块，与所述原子DIV块保留模块相连，用于对每个原子DIV块进行参数分析，根据分析结果选取出包含网页正文的DIV块；网页正文提取模块，与所述网页正文DIV块选取模块相连，用于对所述包含网页正文的DIV块进行内容提取，以获取网页正文。2CN102479181A权利要求书2/2页8.根据权利要求7所述的装置，其特征在于，所述装置还包括：网页正文DIV块确定模块，分别与所述网页正文DIV块选取模块和所述网页正文提取模块相连，用于如果原子DIV块与所述包含网页正文的DIV块间隔预定间隙且位于所述包含网页正文的DIV块的正上方或正下方，则确定与所述包含网页正文的DIV块间隔预定间隙且位于所述包含网页正文的

相关资料

基于DIV位置的网页正文抽取方法和装置.pdf

本发明公开了一种基于DIV位置的网页正文抽取方法和装置。其中，该方法包括利用HTML页面在DOM树中的DIV块信息重新构建DIV块；保留重新构建DIV块中的原子DIV块，原子DIV块为除其本身之外不包含任何其他DIV块的DIV块；对每个原子DIV块进行参数分析，根据分析结果选取出包含网页正文的DIV块；对包含网页正文的DIV块进行内容提取，以获取网页正文。本发明能够防止同一DIV块被重复分析，从而提高了分析效率。同时，根据每个原子DIV块的参数来选取包含网页正文的DIV块，以有效去除HTML网页中的噪音信

2023-11-25

746KB

网页正文抽取方法及装置.pdf

本发明公开了网页正文抽取方法及装置，通过下载网页页面，根据所述网页页面获取网页源代码，根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树，采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域，基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料，能有效避免现有抽取技术中人工规则和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。

2024-01-06

314KB

基于文本标点密度连续和的网页正文抽取.docx

基于文本标点密度连续和的网页正文抽取标题：基于文本标点密度连续和的网页正文抽取技术摘要：随着互联网的快速发展，网页的数量也日益增多，如何高效准确地从网页中提取出有用的文本成为了研究的一个重要问题。本论文研究了一种基于文本标点密度连续和的网页正文抽取技术。该方法通过计算网页中文本中标点符号的密度，找到连续和较高的区域，从而有效地检测出网页中的正文部分。实验结果表明，该技术能够准确提取出网页正文，具有较好的效果和应用潜力。一、引言随着互联网的快速发展，人们从互联网中获取信息的需求也日益增加。然而，网页上的信息

2024-10-27

10KB

基于网页文章的标题抽取方法及装置.pdf

本发明提出一种基于网页文章的标题抽取方法及装置,其中方法包括:获取网页文章对应的网页代码;根据渲染后的网页代码,构建DOM树;根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整;获取DOM树中正文区域前的叶子节点,并作为标题候选节点;根据标题候选节点中的文本内容特征,以及标题候选节点与正文区域之间的距离,计算标题候选节点的特征分数;将对应的特征分数最高的标题候选节点确定为标题节点,将其文本内容确定为网页文章的标题,从而能够结合正文区域所在位置,确定标题候选节点,结合标题候选节点中的文本内容特

2023-06-10

594KB

一种招标网页的正文抽取方法、装置及存储介质.pdf

本申请涉及数据处理技术领域，更为具体来说，本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括：为待抽取的招标网页构建DOM树；确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点；从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点，并将所述最优节点对应的文本存入待筛选文本集合，所述待筛选文本集合中包括多个层级对应的最优节点的文本；对待筛选文本集合进行规则筛选，得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题，大大地提升了效率，缩小了空间，

2023-07-21

659KB