预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112685619A(43)申请公布日2021.04.20(21)申请号202011599380.7(22)申请日2020.12.29(71)申请人江苏乐道胡巴投资管理有限公司地址214000江苏省无锡市滨湖区建筑西路599号A幢1226室(72)发明人曹肖林许琳逸(74)专利代理机构北京艾皮专利代理有限公司11777代理人马小辉(51)Int.Cl.G06F16/951(2019.01)G06F16/955(2019.01)权利要求书2页说明书5页附图3页(54)发明名称一种网页表格数据通用抓取方法(57)摘要本发明适用于计算机技术领域,提供了一种网页表格数据通用抓取方法;其应用于网页表格数据通用抓取系统,包括以下处理步骤:获取用户输入的自定义抓取内容特征;获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。CN112685619ACN112685619A权利要求书1/2页1.一种网页表格数据通用抓取方法,其特征在于,其应用于网页表格数据通用抓取系统,包括以下处理步骤:获取用户输入的自定义抓取内容特征;获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。2.根据权利要求1所述的网页表格数据通用抓取方法,其特征在于,所述自定义抓取内容特征为目标网站的数据抓取地址入口。3.根据权利要求2所述的网页表格数据通用抓取方法,其特征在于,获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。4.根据权利要求3所述的网页表格数据通用抓取方法,其特征在于,从页面的URL路径阵列两端同时获取页面的URL路径,同时两路进行页面数据抓取。5.根据权利要求1‑4任一所述的网页表格数据通用抓取方法,其特征在于,所述网页表格数据通用抓取系统包括操作端和处理端,操作端与处理端通信连接;操作端,用于接收用户录入的自定义抓取内容特征;用用于接收处理端发送的表格数据,并将数据分类展示;处理端,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;用于对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;用于对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,将处理完成后的表格数据发送给操作端。6.根据权利要求5所述的网页表格数据通用抓取方法,其特征在于,所述操作端包括显示单元与录入单元,显示单元与录入单元通信连接;显示单元,用于接收处理端发送的表格数据,并将数据分类展示;录入单元,用于接收用户录入的自定义抓取内容特征。7.根据权利要求5所述的网页表格数据通用抓取方法,其特征在于,所述处理端包括路径获取单元、解析单元、数据库、比对单元和后处理单元;路径获取单元、解析单元、数据库、比对单元和后处理单元之间均通信连接;路径获取单元,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;解析单元,用于接收路径获取单元获取的页面的数据,并对页面信息进行解析,获取表格数据和该表格数据的页面网络链接,将表格数据和含有表格数据的该页面网络链接储存至数据库中;数据库,用于储存数据;比对单元,对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表2CN112685619A权利要求书2/2页格数据进行分类排列,重新发送给数据库进行储存,并将之前的数据进行覆盖,将处理完成后的表格数据发送给操作端。8.根据权利要求7所述的网页表格数据通用抓取方法,其特征在于,路径获取单元,用于获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。9.根据权利要求8所述的网页表格数据通用抓取方法,其特征在于,路径获取单元包括阵列处理模块和多个数据获取模块,阵列处理模块和多个数据获取模块之间通信连接;阵列处理模块,用于从页面的URL路径阵列两端获取页面的URL路径,并将两端页面的URL路径逐一分配给数据获取模块;多个数据获取模块,用于接收阵列处理模块分配的页面的UR