预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110309394A(43)申请公布日2019.10.08(21)申请号201910515145.8(22)申请日2019.06.14(71)申请人中国建设银行股份有限公司地址100033北京市西城区金融大街25号申请人建信金融科技有限责任公司(72)发明人林晨陈文极林震宇徐立宇林智泓陈艺辉陶峥(74)专利代理机构北京三友知识产权代理有限公司11127代理人王涛任默闻(51)Int.Cl.G06F16/951(2019.01)权利要求书2页说明书7页附图3页(54)发明名称网页结构化数据的抓取方法及系统(57)摘要本发明提供一种网页结构化数据的抓取方法及系统。该网页结构化数据的抓取方法包括:依次对每列网页数据执行如下处理:获取第一条数据的标签链作为第一标签链;当第一标签链中存在表格元素时:获取存在表格元素的全部子标签以构成标签合集;提取标签合集中包括表格文字标签的文本以组织列结构化数据;当第一标签链中不存在表格元素时:获取第二条数据的标签链作为第二标签链;根据第一标签链和第二标签链获取总开头标签;将存在总开头标签的其余数据的标签链放入子节点合集中;提取子节点合集中的全部文本标签以组织列结构化数据;根据每列网页数据对应的列结构化数据组成网页结构化数据,以保留抓取数据的原有结构,方便后续的数据处理。CN110309394ACN110309394A权利要求书1/2页1.一种网页结构化数据的抓取方法,其特征在于,包括:获取一列或多列网页数据;依次对每列网页数据执行如下处理:获取第一条数据的标签链作为第一标签链;判断所述第一标签链中是否存在表格元素;当所述第一标签链中存在表格元素时:将所述表格元素所在的标签层级作为根节点,获取所述根节点下存在表格元素的全部子标签以构成标签合集;提取所述标签合集中包括表格文字标签的文本以组织列结构化数据;当所述第一标签链中不存在表格元素时:获取第二条数据的标签链作为第二标签链;根据所述第一标签链和所述第二标签链获取总开头标签;判断其余每条数据的标签链中是否存在总开头标签;当存在总开头标签时,将该数据的标签链放入子节点合集中;提取所述子节点合集中的全部文本标签以组织列结构化数据;根据每列网页数据对应的列结构化数据组成网页结构化数据。2.根据权利要求1所述的网页结构化数据的抓取方法,其特征在于,根据所述第一标签链和所述第二标签链获取总开头标签,包括:从第一个标签开始,依次比较第一标签链与第二标签链中相同位置的标签是否相同,直至第一标签链中其中一位置的标签与第二标签链中位于该位置的标签不同;将所述第一标签链与所述第二标签链中位于相同位置的相同标签作为总开头标签。3.根据权利要求1所述的网页结构化数据的抓取方法,其特征在于,所述表格元素包括:thdad和tboy。4.根据权利要求1所述的网页结构化数据的抓取方法,其特征在于,所述表格文字标签包括:tr文字标签和td文字标签。5.一种网页结构化数据的抓取系统,其特征在于,包括:第一获取单元,用于获取一列或多列网页数据;第二获取单元,用于获取第一条数据的标签链作为第一标签链;第一判断单元,用于判断所述第一标签链中是否存在表格元素;标签合集单元,用于将所述表格元素所在的标签层级作为根节点,获取所述根节点下存在表格元素的全部子标签以构成标签合集;第一列结构化数据单元,用于提取所述标签合集中包括表格文字标签的文本以组织列结构化数据;第三获取单元,用于获取第二条数据的标签链作为第二标签链;总开头标签单元,用于根据所述第一标签链和所述第二标签链获取总开头标签;第二判断单元,用于判断其余每条数据的标签链中是否存在总开头标签;子节点合集单元,用于当存在总开头标签时,将该数据的标签链放入子节点合集中;第二列结构化数据单元,用于提取所述子节点合集中的全部文本标签以组织列结构化数据;2CN110309394A权利要求书2/2页网页结构化数据单元,用于根据每列网页数据对应的列结构化数据组成网页结构化数据。6.根据权利要求5所述的网页结构化数据的抓取系统,其特征在于,所述总开头标签单元具体用于从第一个标签开始,依次比较第一标签链与第二标签链中相同位置的标签是否相同,直至第一标签链中其中一位置的标签与第二标签链中位于该位置的标签不同;将所述第一标签链与所述第二标签链中位于相同位置的相同标签作为总开头标签。7.根据权利要求5所述的网页结构化数据的抓取系统,其特征在于,所述表格元素包括:thdad和tboy。8.根据权利要求5所述的网页结构化数据的抓取系统,其特征在于,所述表格文字标签包括:tr文字标签和td文字标签。9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处