基于网页文章的标题抽取方法及装置.pdf
小宏****aa
亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
基于网页文章的标题抽取方法及装置.pdf
本发明提出一种基于网页文章的标题抽取方法及装置,其中方法包括:获取网页文章对应的网页代码;根据渲染后的网页代码,构建DOM树;根据DOM树各个节点中元素的实际属性值对渲染后的网页代码进行调整;获取DOM树中正文区域前的叶子节点,并作为标题候选节点;根据标题候选节点中的文本内容特征,以及标题候选节点与正文区域之间的距离,计算标题候选节点的特征分数;将对应的特征分数最高的标题候选节点确定为标题节点,将其文本内容确定为网页文章的标题,从而能够结合正文区域所在位置,确定标题候选节点,结合标题候选节点中的文本内容特
一种网页标题的抽取方法与装置.pdf
本发明提供了一种网页标题抽取方法。该方法包括:确定检索词在网页标题中的位置;判断网页标题的首字符到所述检索词的末字符的长度是否小于等于预设标题呈现长度,如果否,则查找断句符,当网页标题中的一段文字的文字长度小于等于预设标题呈现长度且包含完整检索词和查找到的断句符时,将相应文字作为结果返回。本发明还提供了一种网页标题抽取装置。本发明呈现出来的网页标题,既具有较强的可读性和保留了较多的核心信息,又带有“标红”记号便于检索者快速获得检索内容。
基于DIV位置的网页正文抽取方法和装置.pdf
本发明公开了一种基于DIV位置的网页正文抽取方法和装置。其中,该方法包括利用HTML页面在DOM树中的DIV块信息重新构建DIV块;保留重新构建DIV块中的原子DIV块,原子DIV块为除其本身之外不包含任何其他DIV块的DIV块;对每个原子DIV块进行参数分析,根据分析结果选取出包含网页正文的DIV块;对包含网页正文的DIV块进行内容提取,以获取网页正文。本发明能够防止同一DIV块被重复分析,从而提高了分析效率。同时,根据每个原子DIV块的参数来选取包含网页正文的DIV块,以有效去除HTML网页中的噪音信
网页正文抽取方法及装置.pdf
本发明公开了网页正文抽取方法及装置,通过下载网页页面,根据所述网页页面获取网页源代码,根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域,基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料,能有效避免现有抽取技术中人工规则和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。
基于SRI的动态网页信息抽取方法.docx
基于SRI的动态网页信息抽取方法随着互联网的不断发展和普及,动态网页已经成为了用户获取信息以及交流的主要渠道之一。然而,由于动态网页的特殊性,传统的网页抽取方法已经无法满足用户的需求。因此,本文介绍一种基于SRI的动态网页信息抽取方法。SRI(SessionRecordingandInteraction)是一种用于记录用户在网站上交互行为的技术,可以记录用户的鼠标移动、点击、滚动等行为,同时还能够记录网页的动态变化。在这种技术的基础上,可以实现对动态网页的信息抽取。具体地说,基于SRI的动态网页信息抽取方