一种网页标题的抽取方法与装置.pdf
是你****芹呀
亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
一种网页标题的抽取方法与装置.pdf
本发明提供了一种网页标题抽取方法。该方法包括:确定检索词在网页标题中的位置;判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度,如果否,则查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将相应文字作为结果返回。本发明还提供了一种网页标题抽取装置。本发明呈现出来的网页标题,既具有较强的可读性和保留了较多的核心信息,又带有“标红”记号便于检索者快速获得检索内容。
基于网页文章的标题抽取方法及装置.pdf
本发明提出一种基于网页文章的标题抽取方法及装置,其中方法包括:获取网页文章对应的网页代码;根据渲染后的网页代码,构建DOM树;根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整;获取DOM树中正文区域前的叶子节点,并作为标题候选节点;根据标题候选节点中的文本内容特征,以及标题候选节点与正文区域之间的距离,计算标题候选节点的特征分数;将对应的特征分数最高的标题候选节点确定为标题节点,将其文本内容确定为网页文章的标题,从而能够结合正文区域所在位置,确定标题候选节点,结合标题候选节点中的文本内容特
网页正文抽取方法及装置.pdf
本发明公开了网页正文抽取方法及装置,通过下载网页页面,根据所述网页页面获取网页源代码,根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域,基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料,能有效避免现有抽取技术中人工规则和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
一种招标网页的正文抽取方法、装置及存储介质.pdf
本申请涉及数据处理技术领域,更为具体来说,本申请涉及一种招标网页的正文抽取方法、装置及存储介质。所述方法包括:为待抽取的招标网页构建DOM树;确定出所述DOM树当前层级中节点分数最高的第一节点以及文本长度最长的第二节点;从所述第一节点和所述第二节点中确定所述当前层级对应的最优节点,并将所述最优节点对应的文本存入待筛选文本集合,所述待筛选文本集合中包括多个层级对应的最优节点的文本;对待筛选文本集合进行规则筛选,得到目标正文。本申请将招标网页的正文抽取方法转换为最优路径搜索问题,大大地提升了效率,缩小了空间,
基于DIV位置的网页正文抽取方法和装置.pdf
本发明公开了一种基于DIV位置的网页正文抽取方法和装置。其中,该方法包括利用HTML页面在DOM树中的DIV块信息重新构建DIV块;保留重新构建DIV块中的原子DIV块,原子DIV块为除其本身之外不包含任何其他DIV块的DIV块;对每个原子DIV块进行参数分析,根据分析结果选取出包含网页正文的DIV块;对包含网页正文的DIV块进行内容提取,以获取网页正文。本发明能够防止同一DIV块被重复分析,从而提高了分析效率。同时,根据每个原子DIV块的参数来选取包含网页正文的DIV块,以有效去除HTML网页中的噪音信