一种用于网络爬虫系统的网页内容抓取方法及装置-豆柴文库

一种用于网络爬虫系统的网页内容抓取方法及装置.pdf

2023-10-15

10金币

1.8MB

9页

Th****s3

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN103389983A*(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103389983103389983A(43)申请公布日2013.11.13(21)申请号201210140751.4(22)申请日2012.05.08(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人孙杰蔡同利(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人许志勇(51)Int.Cl.G06F17/30(2006.01)权权利要求书1页利要求书1页说明书5页说明书5页附图2页附图2页(54)发明名称一种用于网络爬虫系统的网页内容抓取方法及装置(57)摘要本申请的实施例公开了一种用于网络爬虫系统的网页内容抓取方法及装置，所述方法首先构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；然后通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。本申请的实施例充分利用了大网站的布局特点，通过域名系统DNS查询工具，获取到各个大网站分布在全国各地的CDN结点的IP地址，或者其提供轮询服务的多个IP地址，然后把这些IP地址对应的服务器作为独立的服务器进行抓取，从而提高了对大网站的抓取效率。CN103389983ACN10389ACN103389983A权利要求书1/1页1.一种用于网络爬虫系统的网页内容抓取方法，其特征在于，包括如下步骤：构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。2.如权利要求1所述的方法，其特征在于，所述IP地址数据库根据所述网络爬虫系统的查询，从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。3.如权利要求2所述的方法，其特征在于，所述预设规则包括随机返回一个IP地址。4.如权利要求2所述的方法，其特征在于，所述预设规则包括根据记录顺序返回上一次返回的IP地址的下一个IP地址。5.如权利要求1所述的方法，其特征在于，所述与预设网站的域名对应的多个IP地址，包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址。6.一种用于网络爬虫系统的网页内容抓取装置，其特征在于，包括：数据库模块，用于通过构建一IP地址数据库，记录预设网站的域名及与该域名对应的多个IP地址；替换模块，用于通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。7.如权利要求6所述的装置，其特征在于，所述数据库模块，根据所述网络爬虫系统的查询，从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。8.如权利要求7所述的装置，其特征在于，所述预设规则包括随机返回一个IP地址。9.如权利要求7所述的装置，其特征在于，所述预设规则包括根据记录顺序返回上一次返回的IP地址的下一个IP地址。10.如权利要求6所述的装置，其特征在于，所述数据库模块中记录的与预设网站的域名对应的多个IP地址，包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址。2CN103389983A说明书1/5页一种用于网络爬虫系统的网页内容抓取方法及装置技术领域[0001]本发明涉及计算机、互联网技术领域，尤其涉及一种用于网络爬虫系统的网页内容抓取方法及装置。背景技术[0002]网络爬虫（又被称为网页蜘蛛，网络机器人等），是一种按照一定的规则自动的抓取互联网上的网页的程序或者脚本，它们的行为被称为网页抓取或蜘蛛爬行。[0003]由于网络上的HTML文档使用超链接连接了起来，就像组成了一张网，因此，网络爬虫可以顺着这张网爬行，每到一个网页就利用抓取程序将这个网页抓下来，并将其中的超链接抽取出来，作为进一步爬行的线索。[0004]一般来说，网络爬虫都是从一组要访问的URL（统一资源定位符，或简称网址）链接开始，可以称这些URL为种子。爬虫访问这些链接，并辨认出这些页面中的所有超链接，然后将这些超链接添加到一个URL列表中，再按照一定的策略反复访问这些列表中的URL链接。[0005]然而，现有的网络爬虫系统经常会遇到的一个问题是，对于一些比较大的网站，无法在较短的时间内将其内容全部抓取完，这是因为网络爬虫在爬取网页的过程中，需要遵守一定的礼仪规范，不能对同一个网站进行过于频繁的抓取，否则会给对方网站的服务器造成过大的压力，严重时可能会导致该网站不得不屏蔽该网络爬虫，禁止其抓取行为。[0006]抓取的礼仪规

相关资料

一种用于网络爬虫系统的网页内容抓取方法及装置.pdf

本申请的实施例公开了一种用于网络爬虫系统的网页内容抓取方法及装置，所述方法首先构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；然后通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。本申请的实施例充分利用了大网站的布局特点，通过域名系统DNS查询工具，获取到各个大网站分布在全国各地的CDN结点的IP地址，或者其提供轮询服务的多个IP地址，然后把这些IP地址对应的服务器作为独立的服务器进行抓取，从而提高了对大

2023-10-15

1.8MB

一种网页抓取方法及装置.pdf

本发明涉及网络信息处理技术领域，提供了一种网页抓取方法及装置，其中，该方法包括：获取网页的抓取周期，计算得出再次抓取该网页的时间；确定再次抓取该网页的时间早于当前时间的网页，将该网页重新加入待抓取的网页队列；从待抓取的网页队列中再次进行网页抓取。通过本发明解决了现有技术中开源网络爬虫只能对网页进行单次抓取的情况下，需要定时重新抓取网页进行网页更新导致的无法自动适应网页更新频率的问题，从而可以不断调整各个网页的抓取周期，实现了网页的及时更新，降低了重抓大量未更新网页而带来的成本，提高了搜索引擎的及时性。

2023-12-07

806KB

一种抓取网页的方法和装置.pdf

一种抓取网页的方法和装置，包括如下步骤：（1）根据新链接的关键词和URL地址，计算所述新链接URL地址的关键词的权重值；（2）将关键词按照权重值生成关键词列表；（3）从关键词列表中提取关键词放置到指定页面里；（4）根据关键词抓取页面。本发明所提出的方案通过内链接的平衡性，提高了搜索引擎的网页抓取率。

2024-01-03

1.3MB

一种内容抓取方法、装置、系统以及存储介质.pdf

本发明涉及一种内容抓取方法、装置、系统以及存储介质。所述方法包括：服务器管理层获取抓取内容的配置信息，并将所述配置信息发送至业务逻辑层；业务逻辑层轮询更新所述服务器管理层发送的配置信息，并将更新的配置信息发送至通用通信控制层；通用通信控制层根据所述配置信息生成的测试脚本，并根据通用网络驱动协议将所述测试脚本发送至应用执行层；应用执行层接收并解析所述测试脚本，并调用与解析结果匹配的原生测试框架对解析结果执行抓取操作。

2023-08-30

961KB

网页抓取方法及装置.pdf

本发明公开了一种网页抓取方法及装置，属于计算机网络领域。所述方法包括：抓取游戏网站上的目标网页页面；根据目标网页页面的网页源代码，识别H5游戏对应的网页页面；对H5游戏对应的网页页面进行动态渲染，得到渲染后的网页页面；渲染后的网页页面中提取H5游戏对应的游戏详情信息。本发明通过网页源代码识别出H5游戏对应的网页页面，使得服务器能够从渲染后的该网页页面中提取出H5游戏对应的游戏详情信息，避免了抓取结果需要大量人工来筛选和信息提取的问题，达到了根据网页的源代码准确识别H5游戏对应的网页页面，进行从网页页面中提

2024-01-06

1MB