预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN103389983A*(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103389983103389983A(43)申请公布日2013.11.13(21)申请号201210140751.4(22)申请日2012.05.08(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人孙杰蔡同利(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人许志勇(51)Int.Cl.G06F17/30(2006.01)权权利要求书1页利要求书1页说明书5页说明书5页附图2页附图2页(54)发明名称一种用于网络爬虫系统的网页内容抓取方法及装置(57)摘要本申请的实施例公开了一种用于网络爬虫系统的网页内容抓取方法及装置,所述方法首先构建一IP地址数据库,记录有预设网站的域名及与该域名对应的多个IP地址;然后通过查询所述IP地址数据库,将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。本申请的实施例充分利用了大网站的布局特点,通过域名系统DNS查询工具,获取到各个大网站分布在全国各地的CDN结点的IP地址,或者其提供轮询服务的多个IP地址,然后把这些IP地址对应的服务器作为独立的服务器进行抓取,从而提高了对大网站的抓取效率。CN103389983ACN10389ACN103389983A权利要求书1/1页1.一种用于网络爬虫系统的网页内容抓取方法,其特征在于,包括如下步骤:构建一IP地址数据库,记录有预设网站的域名及与该域名对应的多个IP地址;通过查询所述IP地址数据库,将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。2.如权利要求1所述的方法,其特征在于,所述IP地址数据库根据所述网络爬虫系统的查询,从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。3.如权利要求2所述的方法,其特征在于,所述预设规则包括随机返回一个IP地址。4.如权利要求2所述的方法,其特征在于,所述预设规则包括根据记录顺序返回上一次返回的IP地址的下一个IP地址。5.如权利要求1所述的方法,其特征在于,所述与预设网站的域名对应的多个IP地址,包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址。6.一种用于网络爬虫系统的网页内容抓取装置,其特征在于,包括:数据库模块,用于通过构建一IP地址数据库,记录预设网站的域名及与该域名对应的多个IP地址;替换模块,用于通过查询所述IP地址数据库,将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。7.如权利要求6所述的装置,其特征在于,所述数据库模块,根据所述网络爬虫系统的查询,从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。8.如权利要求7所述的装置,其特征在于,所述预设规则包括随机返回一个IP地址。9.如权利要求7所述的装置,其特征在于,所述预设规则包括根据记录顺序返回上一次返回的IP地址的下一个IP地址。10.如权利要求6所述的装置,其特征在于,所述数据库模块中记录的与预设网站的域名对应的多个IP地址,包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址。2CN103389983A说明书1/5页一种用于网络爬虫系统的网页内容抓取方法及装置技术领域[0001]本发明涉及计算机、互联网技术领域,尤其涉及一种用于网络爬虫系统的网页内容抓取方法及装置。背景技术[0002]网络爬虫(又被称为网页蜘蛛,网络机器人等),是一种按照一定的规则自动的抓取互联网上的网页的程序或者脚本,它们的行为被称为网页抓取或蜘蛛爬行。[0003]由于网络上的HTML文档使用超链接连接了起来,就像组成了一张网,因此,网络爬虫可以顺着这张网爬行,每到一个网页就利用抓取程序将这个网页抓下来,并将其中的超链接抽取出来,作为进一步爬行的线索。[0004]一般来说,网络爬虫都是从一组要访问的URL(统一资源定位符,或简称网址)链接开始,可以称这些URL为种子。爬虫访问这些链接,并辨认出这些页面中的所有超链接,然后将这些超链接添加到一个URL列表中,再按照一定的策略反复访问这些列表中的URL链接。[0005]然而,现有的网络爬虫系统经常会遇到的一个问题是,对于一些比较大的网站,无法在较短的时间内将其内容全部抓取完,这是因为网络爬虫在爬取网页的过程中,需要遵守一定的礼仪规范,不能对同一个网站进行过于频繁的抓取,否则会给对方网站的服务器造成过大的压力,严重时可能会导致该网站不得不屏蔽该网络爬虫,禁止其抓取行为。[0006]抓取的礼仪规