预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111061971A(43)申请公布日2020.04.24(21)申请号201911290732.8(22)申请日2019.12.16(71)申请人百度在线网络技术(北京)有限公司地址100085北京市海淀区上地十街10号百度大厦三层(72)发明人李雨航张玉龙(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06F16/955(2019.01)G06F16/951(2019.01)权利要求书3页说明书11页附图4页(54)发明名称用于抽取信息的方法和装置(57)摘要本申请实施例公开了用于抽取信息的方法和装置。该方法的一具体实施方式包括:接收待抽取网页的统一资源定位符;基于待抽取网页的统一资源定位符,获取待抽取网页的同步渲染页面和异步请求结果页面;对待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到待抽取网页的结构化数据。该实施方式通过结合同步渲染页面和异步请求结果页面进行信息抽取,保证了提取信息的完整性,从而提高了抽取信息的准确度。CN111061971ACN111061971A权利要求书1/3页1.一种用于抽取信息的方法,包括:接收待抽取网页的统一资源定位符;基于所述待抽取网页的统一资源定位符,获取所述待抽取网页的同步渲染页面和异步请求结果页面;对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据。2.根据权利要求1所述的方法,其中,所述对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据,包括:确定所述待抽取网页所属的网站对应的抽取模板;基于所述待抽取网页所属的网站对应的抽取模板对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据。3.根据权利要求2所述的方法,其中,在所述基于所述待抽取网页所属的网站对应的抽取模板对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据之后,还包括:对所述待抽取网页的结构化数据进行准确性校验,得到准确性校验结果;基于所述准确性校验结果确定是否对所述待抽取网页所属的网站对应的抽取模板重新配置。4.根据权利要求3所述的方法,其中,所述方法还包括:若通过准确性校验,将所述待抽取网页的结构化数据存储在抽取结果数据库中;若未通过准确性校验,获取所述待抽取网页所属的网站对应的重新配置的抽取模板,基于所述重新配置的抽取模板对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的最新结构化数据,以及将所述待抽取网页的最新结构化数据存储在所述抽取结果数据库中。5.根据权利要求3所述的方法,其中,准确性校验包括以下至少一项:校验是否提取到数据;校验提取到的数据的类型是否正确;校验抽取到的数据的编码格式是否正确;校验网页的原始数据和抽取到的数据的匹配度。6.根据权利要求2所述的方法,其中,抽取模板是终端设备通过如下步骤配置的:对同一网站的模板网页的模板同步渲染页面和模板异步请求结果页面,以及配置调试页面分区显示;响应于选取所述模板同步渲染页面和/或模板异步请求结果页面的至少部分区域,将所选取的区域中的内容在所述配置调试页面中进行展示;响应于选取所述配置调试页面中的字段,基于所选取的字段对所述展示内容进行抽取,生成该网站对应的抽取模板。7.根据权利要求1-6之一所述的方法,其中,所述待抽取网页包括一个同步渲染页面和多个异步请求结果页面,所述待抽取网页的同步渲染页面是HTML页面,所述待抽取网页的异步请求结果页面是JSON页面。8.一种用于抽取信息的装置,包括:2CN111061971A权利要求书2/3页接收单元,被配置成接收待抽取网页的统一资源定位符;获取单元,被配置成基于所述待抽取网页的统一资源定位符,获取所述待抽取网页的同步渲染页面和异步请求结果页面;抽取单元,被配置成对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据。9.根据权利要求8所述的装置,其中,所述抽取单元包括:第一确定子单元,被配置成确定所述待抽取网页所属的网站对应的抽取模板;抽取子单元,被配置成基于所述待抽取网页所属的网站对应的抽取模板对所述待抽取网页的同步渲染页面和异步请求结果页面进行信息抽取,得到所述待抽取网页的结构化数据。10.根据权利要求9所述的装置,其中,所述抽取单元还包括:校验子单元,被配置成对所述待抽取网页的结构化数据进行准确性校验,得到准确性校验结果;第二确定子单元,被配置成基于所述准确性校验结果确定是否对所述待抽取网页所属的网站对应的抽取模板重新配置。11.根据权