一种网页标题的抽取方法与装置-豆柴文库

一种网页标题的抽取方法与装置.pdf

2023-11-25

10金币

526KB

15页

是你****芹呀

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN102929882A*(12)发明专利申请(10)申请公布号CN102929882A(43)申请公布日2013.02.13(21)申请号201110227641.7(22)申请日2011.08.09(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼岛资本大厦一座四层847号邮箱(72)发明人陈宏杰张小洵薛贵荣(74)专利代理机构北京集佳知识产权代理有限公司11227代理人逯长明王宝筠(51)Int.Cl.G06F17/30(2006.01)权利要求书权利要求书2页2页说明书说明书99页页附图附图33页(54)发明名称一种网页标题的抽取方法与装置(57)摘要本发明提供了一种网页标题抽取方法。该方法包括：确定检索词在网页标题中的位置；判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度，如果否，则查找断句符，当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时，将相应文字作为结果返回。本发明还提供了一种网页标题抽取装置。本发明呈现出来的网页标题，既具有较强的可读性和保留了较多的核心信息，又带有“标红”记号便于检索者快速获得检索内容。CN10298ACN102929882A权利要求书1/2页1.一种网页标题的抽取方法，其特征在于，该方法包括：确定检索词在网页标题中的位置；判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度，如果是，则自网页标题起始位置度量预设标题呈现长度，将该对应位置前的文字作为结果返回；如果否，则：查找断句符，当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时，将所述一段文字作为结果返回。2.根据权利要求1所述的方法，其特征在于，当所述查找到的断句符包括位于检索词之前的前断句符时，则：将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和前断句符的一段文字作为结果返回。3.根据权利要求1所述的方法，其特征在于，当所述查找到的断句符包括位于检索词之后的后断句符时，则：将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和后断句符的一段文字作为结果返回。4.根据权利要求1所述的方法，其特征在于，当所述查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时，则：将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词、前断句符和后断句符的一段文字作为结果返回。5.根据权利要求1所述的方法，其特征在于，在将网页标题中的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字作为结果返回时，该方法还包括：从该段文字的首字符向前寻找第一位置，将第一位置到该段文字的首字符之间的文字同该段文字一起作为结果返回，所述第一位置到该段文字的末字符间的文字长度小于等于预设标题呈现长度；或，从该段文字的末字符向后寻找第二位置，将该段文字的末字符到第二位置之间的文字同该段文字一起作为结果返回，所述第二位置到该段文字的首字符间的文字长度小于等于预设标题呈现长度；或，从该段文字的首字符向前寻找第三位置，从该段文字的末字符向后寻找第四位置，将第三位置到该段文字的首字符之间的文字和该段文字的末字符到第四位置之间的文字同该段文字一起作为结果返回，所述第三位置到第四位置间的文字长度小于等于预设标题呈现长度。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：当网页标题中不存在文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符的一段文字时，则：自网页标题起始位置度量预设标题呈现长度，将该对应位置前的文字作为结果返回。7.一种网页标题的抽取装置，其特征在于，该装置包括：检索词位置确定单元、判断单元、断句符查找单元、第一匹配单元和结果返回单元，其中：所述检索词位置确定单元，用于确定检索词在网页标题中的位置；所述判断单元，用于判断网页标题的首字符到所述检索词的末字符间的文字长度是否小于等于预设标题呈现长度，如果是，则触发结果返回单元；如果否，则触发断句符查找单元；2CN102929882A权利要求书2/2页所述断句符查找单元，用于查找断句符；所述第一匹配单元，用于当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时，触发结果返回单元。所述结果返回单元，用于在受到判断单元触发时，自网页标题起始位置度量预设标题呈现长度，将该对应位置前的文字作为结果返回；在受到第一匹配单元触发时，将相应文字作为结果返回。8.根据权利要求7所述的装置，其特征在于，当所述断句符查找单元查找到的断句符包括位于检索词之前的前断句符和位于检索词之后的后断句符时，则：所述结果返回单元用于将网页标题中的

相关资料

一种网页标题的抽取方法与装置.pdf

本发明提供了一种网页标题抽取方法。该方法包括：确定检索词在网页标题中的位置；判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度，如果否，则查找断句符，当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时，将相应文字作为结果返回。本发明还提供了一种网页标题抽取装置。本发明呈现出来的网页标题，既具有较强的可读性和保留了较多的核心信息，又带有“标红”记号便于检索者快速获得检索内容。

2023-11-25

526KB

基于网页文章的标题抽取方法及装置.pdf

本发明提出一种基于网页文章的标题抽取方法及装置,其中方法包括:获取网页文章对应的网页代码;根据渲染后的网页代码,构建DOM树;根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整;获取DOM树中正文区域前的叶子节点,并作为标题候选节点;根据标题候选节点中的文本内容特征,以及标题候选节点与正文区域之间的距离,计算标题候选节点的特征分数;将对应的特征分数最高的标题候选节点确定为标题节点,将其文本内容确定为网页文章的标题,从而能够结合正文区域所在位置,确定标题候选节点,结合标题候选节点中的文本内容特

2023-06-10

594KB

网页正文抽取方法及装置.pdf

本发明公开了网页正文抽取方法及装置，通过下载网页页面，根据所述网页页面获取网页源代码，根据所述网页源代码创建DOM树，基于所述DOM树和所述网页页面的页面样式生成视觉树，采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型，基于所述视觉识别模型定位文本域，基于所述文本域抽取特征文本，从而获得所述网页页面的正文语料，能有效避免现有抽取技术中人工规则和模板的弊端，能有效提取网页内容，兼容性高，杂质去除完整。

2024-01-06

314KB

一种招标网页的正文抽取方法、装置及存储介质.pdf

本申请涉及数据处理技术领域，更为具体来说，本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括：为待抽取的招标网页构建DOM树；确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点；从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点，并将所述最优节点对应的文本存入待筛选文本集合，所述待筛选文本集合中包括多个层级对应的最优节点的文本；对待筛选文本集合进行规则筛选，得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题，大大地提升了效率，缩小了空间，

2023-07-21

659KB

基于DIV位置的网页正文抽取方法和装置.pdf

本发明公开了一种基于DIV位置的网页正文抽取方法和装置。其中，该方法包括利用HTML页面在DOM树中的DIV块信息重新构建DIV块；保留重新构建DIV块中的原子DIV块，原子DIV块为除其本身之外不包含任何其他DIV块的DIV块；对每个原子DIV块进行参数分析，根据分析结果选取出包含网页正文的DIV块；对包含网页正文的DIV块进行内容提取，以获取网页正文。本发明能够防止同一DIV块被重复分析，从而提高了分析效率。同时，根据每个原子DIV块的参数来选取包含网页正文的DIV块，以有效去除HTML网页中的噪音信

2023-11-25

746KB