Python3网络爬虫开发实战-分析Ajax爬取今日头条街拍美图-豆柴文库

Python3网络爬虫开发实战-分析Ajax爬取今日头条街拍美图.docx

2024-04-30

9金币

1.8MB

8页

胜利****实阿

实名认证

内容提供者

1/8

2/8

3/8

4/8

5/8

6/8

7/8

8/8

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【摘要】本节中，我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图，抓取完成之后，将每组图片分文件夹下载到本地并保存下来。本节中，我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图，抓取完成之后，将每组图片分文件夹下载到本地并保存下来。1.准备工作在本节开始之前，请确保已经安装好requests库。如果没有安装，可以参考第1章。2.抓取分析在抓取之前，首先要分析抓取的逻辑。打开今日头条的首页http://www.toutiao.com/，如图6-15所示。图6-15首页内容右上角有一个搜索入口，这里尝试抓取街拍美图，所以输入“街拍”二字搜索一下，结果如图6-16所示。图6-16搜索结果这时打开开发者工具，查看所有的网络请求。首先，打开第一个网络请求，这个请求的URL就是当前的链接http://www.toutiao.com/search/?keyword=街拍，打开Preview选项卡查看ResponseBody。如果页面中的内容是根据第一个请求得到的结果渲染出来的，那么第一个请求的源代码中必然会包含页面结果中的文字。为了验证，我们可以尝试搜索一下搜索结果的标题，比如“路人”二字，如图6-17所示。图6-17搜索结果我们发现，网页源代码中并没有包含这两个字，搜索匹配结果数目为0。因此，可以初步判断这些内容是由Ajax加载，然后用JavaScript渲染出来的。接下来，我们可以切换到XHR过滤选项卡，查看一下有没有Ajax请求。不出所料，此处出现了一个比较常规的Ajax请求，看看它的结果是否包含了页面中的相关数据。点击data字段展开，发现这里有许多条数据。点击第一条展开，可以发现有一个title字段，它的值正好就是页面中第一条数据的标题。再检查一下其他数据，也正好是一一对应的，如图6-18所示。图6-18对比结果这就确定了这些数据确实是由Ajax加载的。我们的目的是要抓取其中的美图，这里一组图就对应前面data字段中的一条数据。每条数据还有一个image_detail字段，它是列表形式，这其中就包含了组图的所有图片列表，如图6-19所示。图6-19图片列表信息因此，我们只需要将列表中的url字段提取出来并下载下来就好了。每一组图都建立一个文件夹，文件夹的名称就为组图的标题。接下来，就可以直接用Python来模拟这个Ajax请求，然后提取出相关美图链接并下载。但是在这之前，我们还需要分析一下URL的规律。切换回Headers选项卡，观察一下它的请求URL和Headers信息，如图6-20所示。图6-20请求信息可以看到，这是一个GET请求，请求URL的参数有offset、format、keyword、autoload、count和cur_tab。我们需要找出这些参数的规律，因为这样才可以方便地用程序构造出来。接下来，可以滑动页面，多加载一些新结果。在加载的同时可以发现，Network中又出现了许多Ajax请求，如图6-21所示。图6-21Ajax请求这里观察一下后续链接的参数，发现变化的参数只有offset，其他参数都没有变化，而且第二次请求的offset值为20，第三次为40，第四次为60，所以可以发现规律，这个offset值就是偏移量，进而可以推断出count参数就是一次性获取的数据条数。因此，我们可以用offset参数来控制数据分页。这样一来，我们就可以通过接口批量获取数据了，然后将数据解析，将图片下载下来即可。3.实战演练我们刚才已经分析了一下Ajax请求的逻辑，下面就用程序来实现美图下载吧。首先，实现方法get_page()来加载单个Ajax请求的结果。其中唯一变化的参数就是offset，所以我们将它当作参数传递，实现如下：importrequestsfromurllib.parseimporturlencodedefget_page(offset):params={'offset':offset,'format':'json','keyword':'街拍','autoload':'true','count':'20','cur_tab':'1',}url='http://www.toutiao.com/search_content/?'+urlencode(params)try:response=requests.get(url)ifresponse.status_code==200:returnresponse.json()exceptrequests.ConnectireplaceString:returnNone这里我们用urlenco

相关资料

Python3网络爬虫开发实战-分析Ajax爬取今日头条街拍美图.docx

2024-04-30

1.8MB

网络爬虫针对“反爬”网站的爬取策略分析.docx

网络爬虫针对“反爬”网站的爬取策略分析网络爬虫是一种用于自动化获取网页内容的程序，然而，随着网站安全性的提升，针对爬虫的反爬策略也日渐成熟。在许多情况下，网站会采取措施来防止爬虫访问和获取网页内容，这对爬虫的开发者提出了新的挑战。本文将围绕“反爬”网站的爬取策略进行分析，并对一些常见的反爬技术进行介绍和讨论。同时，我们还将探讨一些应对策略，帮助爬虫开发者解决这些挑战。一、常见的反爬技术及其原理1.User-Agent检测：网站可以通过检测用户请求头中的User-Agent字段，识别是否为爬虫程序。一些网站

2024-10-24

11KB

python网络爬虫爬取策略对比分析.docx

python网络爬虫爬取策略对比分析随着互联网的发展，爬虫技术也越来越受人们的关注。网络爬虫是利用程序自动访问网页并提取信息的一种技术，它可以自动化地获取网络上的信息并进行处理，实现数据的自动化收集和分析。在Python中，有许多非常流行的爬虫框架和库，如BeautifulSoup、Scrapy等。然而，不同的爬取策略会有不同的优缺点和适用情况。本文将分析几种常见的爬虫策略，包括单线程爬取、多线程爬取和分布式爬取，并对它们的优劣势进行对比分析。一、单线程爬取单线程爬取是最简单的爬虫策略，它一次只能处理一个

2024-10-18

11KB

Scrapy网络爬虫开发实战阅读记录.docx

《Scrapy网络爬虫开发实战》阅读记录一、书籍概述《Scrapy网络爬虫开发实战》是一本关于Scrapy网络爬虫开发与应用的实用指南。本书详细介绍了Scrapy框架的基础知识、核心技术以及实战应用，帮助读者快速掌握网络爬虫的开发方法和技巧。本书内容丰富，涵盖了网络爬虫的基本概念、Scrapy框架的核心组件、项目实战案例等方面，是一本非常实用的网络爬虫开发教材。在书籍的概述部分，首先介绍了网络爬虫的基本概念和应用场景，让读者对网络爬虫有一个初步的了解。重点介绍了Scrapy框架的特点和优势，包括其易用性、

2024-08-27

34KB

基于Ajax的深层网络爬虫研究.docx

基于Ajax的深层网络爬虫研究随着互联网的不断发展，每天产生的数据量不断增长，面对海量的数据，人们需要将数据进行收集、整理和分析。深层网络爬虫作为一种数据收集的工具在互联网应用中得到广泛的应用。本文将从Ajax和深层网络爬虫两个方面进行探讨，介绍Ajax技术的特点和实现方式，以及深层网络爬虫的概念、原理和实现方法。一、Ajax技术的特点及实现方式Ajax即“AsynchronousJavaScriptAndXML”的缩写，即异步的JavaScript和XML。它是一种用于在Web应用程序中实现异步通信的技

2024-10-15

11KB