一种基于puppeteer的网站数据收集方法-豆柴文库

一种基于puppeteer的网站数据收集方法.pdf

2024-01-06

10金币

462KB

9页

邻家****mk

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110569414A(43)申请公布日2019.12.13(21)申请号201910773517.7(22)申请日2019.08.21(71)申请人时趣互动（北京）科技有限公司地址100124北京市朝阳区东四环中路76号楼3层301内313(72)发明人曹特磊(51)Int.Cl.G06F16/951(2019.01)G06F9/4401(2018.01)G06F9/54(2006.01)权利要求书1页说明书3页附图4页(54)发明名称一种基于puppeteer的网站数据收集方法(57)摘要本发明提供了一种基于puppeteer的网站数据收集方法，在puppeteer中加载目标网站,通过多个独立数据爬虫子进程进行内部数据抓取,每个数据爬虫子进程包括如下步骤：步骤1，获取数据抓取任务，并对抓取任务加锁；步骤2，使用puppeteer打开目标网站，在预设事件发生后，提取目标数据；步骤3，存储抓取的数据，解锁并标志抓取任务为完成。本发明可以直接拿到渲染后的页面，获取到全部有效信息。可以运行于无视图模式，可以同时运行多个实例，且系统资源占用低，可以分布式部署，整体稳定性和抓取效率都非常高，可以部署在常用的linux系统的服务器上，可以作为service提供抓取的网络服务。CN110569414ACN110569414A权利要求书1/1页1.一种基于puppeteer的网站数据收集方法，其特征在于，在puppeteer中加载目标网站,通过多个独立数据爬虫子进程进行内部数据抓取,每个数据爬虫子进程包括如下步骤：步骤1，获取数据抓取任务，并对抓取任务加锁；步骤2，使用puppeteer打开目标网站，在预设事件发生后，提取目标数据；步骤3，存储抓取的数据，解锁并标志抓取任务为完成。2.根据权利要求1所述的基于puppeteer的网站数据收集方法，其特征在于，所述步骤1包括：设置一个定时触发器，每隔1分钟，去任务表中查询是否有尚未抓取的数据任务；如果存在未抓取的数据任务，对此任务加锁，以防止其他的进程重复执行同一个抓取任务，然后唤起并调用数据抓取模块；若任务表中查询不到任务，此进程进入休眠，等待定时触发器的下一次唤醒。3.根据权利要求2所述的基于puppeteer的网站数据收集方法，其特征在于，所述步骤2包括：在抓取模块被唤醒之后，从抓取任务内获取抓取的任务类型，并通过任务类别，确定目标网站url。抓取模块通过puppeteer启动chromium，打开目标网站url；在chromium打开目标网站url时，监听以下事件：http请求发出、http请求返回内容、页面加载完成、页面加载失败；设置一个或多个数据抓取脚本，将抓取脚本与所述事件中的一种或多种关联，在特定事件发生时，通过抓取脚本调用puppeteer抓取数据。4.根据权利要求3所述的基于puppeteer的网站数据收集方法，其特征在于，所述步骤3包括：对数据内容做解析，然后校验数据内容是否合法；若数据内容不合法，任务状态设置为异常，并进入任务池，等待数据抓取的重试；若数据内容合法，做数据内容的完成性校验；若数据不完整，任务状态设置为待抓取，等待任务数据的继续抓取；若数据内容完成，将数据推入消息队列；同时任务状态设置为完成。2CN110569414A说明书1/3页一种基于puppeteer的网站数据收集方法技术领域[0001]本发明属于网站数据收集领域，具体涉及一种基于puppeteer的网站数据收集方法。背景技术[0002]普通网站数据获取，是通过爬虫获取网站url所对应的http请求，并解析http请求的结果。普通爬虫可以爬取传统网页内容。但目前使用大部分网站，是使用ajax来获取内容，通过JavaScript来渲染页面。普通网页爬虫无法获得有效数据，或者只能获得部分数据。[0003]有少部分较为先进的获取方法是通过selenium来打开游览器，并通过元素定位的方位，获取网页内容。Selenium本身是测试框架，必须运行于有视图的操作系统上，无法部署于常用的linux服务器上。所以无法做到分布式部署，稳定性和抓取效率都非常差，无法作为service提供抓取服务。发明内容[0004]本发明的目的是提供一种基于puppeteer的网站数据收集方法，以解决上述技术问题。[0005]本发明提供了一种基于puppeteer的网站数据收集方法，在puppeteer中加载目标网站,通过多个独立数据爬虫子进程进行内部数据抓取,每个数据爬虫子进程包括如下步骤：[0006]步骤1，获取数据抓取任务，并对抓取任务加锁；[0007]步骤2，使用puppeteer打开目标网站，在预设事件发生后，提取目标数据；[0008]步骤3，存储抓

相关资料

一种基于puppeteer的网站数据收集方法.pdf

本发明提供了一种基于puppeteer的网站数据收集方法，在puppeteer中加载目标网站,通过多个独立数据爬虫子进程进行内部数据抓取,每个数据爬虫子进程包括如下步骤：步骤1，获取数据抓取任务，并对抓取任务加锁；步骤2，使用puppeteer打开目标网站，在预设事件发生后，提取目标数据；步骤3，存储抓取的数据，解锁并标志抓取任务为完成。本发明可以直接拿到渲染后的页面，获取到全部有效信息。可以运行于无视图模式，可以同时运行多个实例，且系统资源占用低，可以分布式部署，整体稳定性和抓取效率都非常高，可以部署在

2024-01-06

462KB

一种基于scrapy和puppeteer的动态数据抓取方法.pdf

本发明涉及一种基于scrapy和puppeteer的动态数据抓取方法，本发明所述的动态数据抓取方法包括以下步骤：步骤1)：分析网络请求；步骤2)：分析动态网络请求；步骤3)：安装scrapy‑redis；步骤4)：设置爬虫的初始url；步骤5)：提前定义scrapy.Item对象；步骤6)：在pipeline中处理Item对象；步骤7)：puppeteer监听redis队列；步骤8)：等待页面加载完成，获取页面html，通过xpath提取目标数据；步骤9)：将目标数据直接插入、或通过id更新到mongod

2023-07-25

310KB

一种基于Puppeteer和CGAN的海报自主生成系统.pdf

本发明公开了一种基于Puppeteer和CGAN的海报自主生成系统，包括客户端、业务服务端、CGAN推理服务器，所述客户端用于和客户进行交互，接收客户指令输入和输出最终海报生成结果，所述业务服务端用于执行截图操作和渲染海报图片，所述CGAN推理服务器用于将屏幕截图转换成特定类型的海报图片。该系统改变了传统的海报设计模式，提高了海报的设计效率，且该系统和已有代码解耦，无需考虑兼容和跨域，减小了对该系统二次开发和维护的成本，具有简洁高效、实用性强的特点。

2024-01-06

370KB

一种基于动态模板的数据收集方法及系统.pdf

本发明公开了一种基于动态模板的数据收集方法及系统，在数据库中建立不同的表格实现：建立JSON格式文件，用于存储模板格式；建立模板基本信息表，用于存储不同模板的基本信息；建立模板属性表，用于存储模板中每个字段的详细属性；建立页面容器，循环读取模板基本信息表、模板属性表、及JSON格式文件中的模板定义，在页面容器中添加组件，动态生成填写页面，通过填写页面实现数据收集。基于动态模板的数据收集方法代替开发执行大量开发重复性、验证性工作，节省定制开发的大量人工和时间，间接节省人工费用、场地占用费用等，有效节约评标成

2023-06-26

448KB

一种基于MADDPG算法的无人机数据收集方法.pdf

本发明涉及一种基于MADDPG算法的无人机数据收集方法，属于无线通信技术领域。该方法包括：S1：构建包含多个无人机以及多个传感器节点的无人机辅助的物联网数据收集系统，具体包括：建模无人机模型；建模传感器节点模型；建模信道模型；建模传感器节点关联变量；建模系统状态、动作和观测值；S2：建模系统代价函数：为由于缓冲区溢出和数据包到期而导致的丢包数量的相反数；S3：建模并训练MADDPG算法；S4：基于MADDPG算法确定无人机数据收集策略。本发明以最小化网络损失为优化目标，实现无人机数据收集轨迹及节点关联优化

2023-07-22

932KB