预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107436931A(43)申请公布日2017.12.05(21)申请号201710581136.X(22)申请日2017.07.17(71)申请人广州特道信息科技有限公司地址510000广东省广州市越秀区文德北路68号自编东方文德广场六层602号(72)发明人晋彤(74)专利代理机构广州三环专利商标代理有限公司44202代理人梁顺宜郝传鑫(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书5页附图1页(54)发明名称网页正文抽取方法及装置(57)摘要本发明公开了网页正文抽取方法及装置,通过下载网页页面,根据所述网页页面获取网页源代码,根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树,采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域,基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料,能有效避免现有抽取技术中人工规则和模板的弊端,能有效提取网页内容,兼容性高,杂质去除完整。CN107436931ACN107436931A权利要求书1/2页1.一种网页正文抽取方法,其特征在于,包括步骤:下载网页页面,根据所述网页页面获取网页源代码,;根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域;基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料。2.如权利要求1所述的网页正文抽取方法,其特征在于,还包括步骤:按照实际视觉效果对所述网页页面的正文语料进行整合和排版。3.如权利要求1所述的网页正文抽取方法,其特征在于,所述基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料具体为:基于定位的文本域,识别所述文本域的模式;根据所述文本域的模式,析出所述DOM树的特征节点;根据所述DOM树的特征节点,抽取特征文本。4.如权利要求3所述的网页正文抽取方法,其特征在于,识别所述文本域的模式具体为:识别所述文本域为单域或多域,从而进行自动适配。5.如权利要求3所述的网页正文抽取方法,其特征在于,识别所述文本域的模式具体为:对大量的网页结构进行模式训练,提取正文在页面的分布模型;其中,所述分布模型由输入信息自适应学习增加新特征;将所述网页页面的DOM树进行分析处理,将所述DOM树的每一节点进行分块聚类获得节点聚类结果;将所述节点聚类结果通过所述分布模型抽取出必要信息,通过所述必要信息获得所述文本域的模式。6.一种网页正文抽取装置,其特征在于,包括:网页源代码获取模块,用于下载网页页面,根据所述网页页面获取网页源代码;视觉树生成模块,用于根据所述网页源代码创建DOM树,基于所述DOM树和所述网页页面的页面样式生成视觉树;文本域定位模块,用于采用视觉渲染技术对所述视觉树进行渲染后生成视觉识别模型,基于所述视觉识别模型定位文本域;正文语料获取模块,用于基于所述文本域抽取特征文本,从而获得所述网页页面的正文语料。7.如权利要求6所述的网页正文抽取装置,其特征在于,还包括:整合模块,用于按照实际视觉效果对所述网页页面的正文语料进行整合和排版。8.如权利要求6所述的网页正文抽取装置,其特征在于,所述正文语料获取模块包括:识别模块,用于基于定位的文本域,识别所述文本域的模式;特征节点析出模块,用于根据所述文本域的模式,析出所述DOM树的特征节点;特征文本抽取模块,用于根据所述DOM树的特征节点,抽取特征文本。2CN107436931A权利要求书2/2页9.如权利要求8所述的网页正文抽取装置,其特征在于,所述识别所述文本域的模式具体为:识别所述文本域为单域或多域,从而进行自动适配。10.如权利要求8所述的网页正文抽取装置,其特征在于,所述识别模块包括:分布模型提取模块,用于对大量的网页结构进行模式训练,提取正文在页面的分布模型;其中,所述分布模型由输入信息自适应学习增加新特征;聚类模块,用于将所述网页页面的DOM树进行分析处理,将所述DOM树的每一节点进行分块聚类获得节点聚类结果;模式获取模块,用于将所述节点聚类结果通过所述分布模型抽取出必要信息,通过所述必要信息获得所述文本域的模式。3CN107436931A说明书1/5页网页正文抽取方法及装置技术领域[0001]本发明涉及计算机领域,尤其涉及一种网页正文抽取方法及装置。背景技术[0002]在新闻(或者资讯)搜索领域,新闻正文抽取是项必不可少的环节,其正文抽取的质量高低决定了新闻搜索的质量和用户体验。目前新闻正文抽取方法格式各样,主要有基于模板(或包装器)方式抽取。基于模板方式抽取:首先定义模板,然后编写程