高效爬取动态页面：利用Chrome调试工具分析JS请求的Python实现方法-东山笔记

在动态网页抓取时，你是否遇到了耗时的问题困扰？别担心，这里有一个高效的办法可以帮你解决问题。接下来，我会为你详细说明。

传统方法的弊病

传统上爬取动态网页，正如前文所述的应用方法，虽有一定思路，却需启动本地浏览器。在小规模网页爬取时，这尚能接受。然而，若进行大规模的网页抓取，涉及成百上千的页面，所需时间将大幅增长，效率极其低下。以抓取电商平台上的所有商品详情页面为例，采用此法可能需耗时数小时甚至数天。

在实际工作中，众多爬虫工程师都曾深受其害。该方法不仅耗时较长，而且消耗了大量的本地资源，进而影响了其他程序的运行。一旦网络出现波动或者浏览器出现卡顿，任务就有可能中断，不得不重新启动，这确实让人感到烦恼。

新方法的优势

新方法操作便捷，无需启动本地浏览器，即可直接解析js生成的GET或POST请求链接。只需向目标网址发送相同请求，即可获得与浏览器一致的数据。例如，若要快速抓取新闻网站每日更新的文章，运用此法可大大提高效率，节省不少时间。

这种方案对资源需求不高，即便在服务器上也能顺畅运行。不论是个人开发者在小规模项目中，还是企业数据团队在进行大数据搜集工作时，都能很好地适应，显著提升工作效率。

分析请求网址

采用这种技术，核心在于对请求的网址进行深入分析。这要求我们掌握JavaScript的执行规则以及网页请求的基本原理。借助相关工具，我们可以直观地观察到网页与服务器之间的互动过程。众多网页为了提升效率，普遍采用异步加载技术，数据则通过POST或GET方式进行传输。

以社交媒体网站为例，用户动态页面往往需要通过多个请求来获取不同信息，比如文字、图片、点赞数等。通过分析这些请求的网址，我们可以直接获取所需数据，从而省去了复杂的页面渲染步骤。

浏览器调试工具

浏览器的调试功能非常关键。通过它，我们可以观察网页内部的运行状况。若要识别出获取数据的关键请求，只需开启监视功能，选择网络和XHR选项。这样做，我们可以集中关注网页与服务器间的数据传输环节。

浏览论坛页面，若需提取用户留言，可通过调试工具迅速找到相应的数据请求。在开发者的控制台界面，可以直观地查看到每个请求的具体信息，比如请求的网址、参数设置以及响应数据，这有助于接下来的操作处理。

具体分析步骤

找到合适的POST工具或ajax工具至关重要。这相当于找到了打开宝藏的钥匙，借助它，我们能获取所需信息。需先将调试工具调整为监控状态，网页加载时，它会自动记录所有请求。

接下来，我们将对涉及数据获取的请求进行筛选。通常，POST请求多用于表单提交和数据发送，而ajax则常用于异步数据加载。通过查看请求的URL、方法以及参数等细节，我们可以判断出哪些请求中包含了所需的数据。

import urllib2
import codecs
import json
 
#读取json中所有的pid，并且生成url list
#sessionUrl ='http://buluo.qq.com/p/detail.html?bid=254116&pid='
defgetUrlList(pContent, sessionUrl):   
    posts = pContent['result']['posts']
    result = ["".join([sessionUrl,i['pid']]) for i in posts]
    return result
   
url ='http://buluo.qq.com/cgi-bin/bar/post/get_post_by_page?bid=254116&num=20&start=1980&source=2'

#注意headers应当使用dict类型，以适应request.add_header(key,value)的参数要求
#Cookie:pgv_pvi=1061844992; pgv_si=s7051931648
headers ={'Host':'buluo.qq.com',
           'Connection':'keep-alive',
           'Accept': 'application/json',
           'X-Requested-With':'XMLHttpRequest',
           'User-Agent': 'Mozilla/5.0 (WindowsNT 6.1; WOW64) AppleWebKit/537.36 '+
           '(KHTML, like Gecko)Chrome/50.0.2661.102 Safari/537.36',
           'Referer':'http://buluo.qq.com/p/barindex.html?bid=254116',
           'Accept-Language': 'zh-CN,zh;q=0.8',                   
           }
data = None
req =urllib2.Request(url, data, headers)
response =urllib2.urlopen(req)
content =response.read().decode('utf-8')
 
withcodecs.open('./content.txt', 'wb', encoding = 'utf-8', errors='ignore') as f:
         f.write(content)
 
sessionUrl ='http://buluo.qq.com/p/detail.html?bid=254116&pid='
pContent =json.loads(content);
ifpContent['result']['total'] != 0:
    print getUrlList(pContent, sessionUrl)
else:
    print "no contents in this page!"