Python Scrapy爬取ebay某类产品销量时数据遗漏，用Selenium解决-东山笔记

在搜集eBay网站上特定类别商品的销售量数据时，遇到了一些让人烦恼的问题。这就像期待拆开一个礼物，却发现少了几个小件。接下来，我会详细和大家聊聊这些经历。

数据遗漏难题初现

前阵子我收集了eBay上x case商品的前50条销量数据，却发现每十个数据中总有两三个没被捕捉到，有时甚至连续四五条数据都丢失了。我盯着屏幕，看着那些输出结果，心里不禁疑惑，这是怎么回事？我尝试了不同的关键词和商品分类，发现这个问题普遍存在。

初期猜测与排查

起初以为可能是并发操作过多，导致程序运行过快。于是急忙降低并发量，让程序逐步运行，但问题依旧，该遗漏的数据还是遗漏了。接着怀疑是不是被网站给屏蔽了，换了多个IP地址，还重新调整了请求头，但情况依旧没有改善。这样反复尝试了好几天，人几乎都要失去信心了。

网络因素探寻

继续思考是否是网络延迟所导致。我降低爬取速度，延长了等待时间，每次请求都耐心等待更久。尽管多次调试，数据缺失的问题依旧存在。坐在电脑前，看着这些结果，我既急又烦，心里琢磨着这究竟是什么问题，难道是软件存在缺陷？

模拟动态页面破局

当我感到无计可施之际，我试了用模拟动态页面请求的方式，竟然找到了一个相当不错的解决方案。虽然数据抓取的速度并不那么迅速，但至少能够完整地获取数据。每晚睡前让机器自动运行，次日醒来便有了完整的数据。这方法就像在黑暗中找到了一盏明灯。

数据爬取边界条件

需特别留意，eBay上显示的仅50条信息，但实际却有60条。我们此次未进行翻页操作，若未来数据量需增加，必须考虑翻页抓取的问题。至于那些无销售记录的产品，抓取销售数据时会出现错误并跳过，但将“sold=‘0 sold’”信息输入后即可解决问题，这有助于确保数据的连续性。

代码分享与感悟

# -*- coding: utf-8 -*-
import scrapy,time

from scrapy.selector import Selector
from scrapy.http import Request
from ..items import ebItem
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
count = 0
count2 = 0
class Ebt2Spider(scrapy.Spider):
    name = 'ebt2'
    allowed_domains =

将代码公布给大家，希望对面临相似困境的朋友们有所帮助。通过攻克这个难关，我领悟到遇到困难时切勿轻易放弃，而应尝试多种途径。在数据抓取的历程中，难免会遇到一些小插曲，但只要持续探索，终能找到解决之道。或许在你们进行数据抓取时，也遇到过类似难题，你们又是如何应对的？欢迎在评论区留言分享，并给予点赞支持！