戴师兄教你零代码爬取Pubmed文献：后羿采集器实战教程，数据分析师必备-东山笔记

在数据领域，如今用零代码工具实现复杂项目不再是幻想。我的一位同事仅用三言两语，便巧妙地运用后羿采集器完成了数据的抓取与整理，这真让人佩服！下面，我们就来一探究竟，看看他是怎么做到的。

需求描述

文献信息所需内容具体，聚焦于“cost”和“Free full text”这两个关键词，发布时间限定在2022年，并且只需要提取前五页内容。尽管基本需求可以通过系统自带功能简化处理，但为了更详尽地演示后羿采集器的应用，我们决定整个过程中都使用这个工具来达成目标。这就如同我们确定了要在苹果园中挑选特定品种、在特定时间成熟的苹果。

获取需求网址

首先，创建一个名为“后羿采集器测试.txt”的空文本文件，并将目标网址粘贴其中。在进行针对同一网页的多种搜索条件或关键词的批量抓取时，进行网址分析是必须的。在原始网址中，第一部分称为term，代表搜索关键词，通过修改这一部分，可以迅速大量地获取所需网址。接着，再将这些网址复制到名为“后羿采集器测试.xlsx”的空白Excel文件中。这一系列操作就像为数据之旅准备精确的地图。

输入网站至采集器

启动后羿采集工具，将复制的网址一粘贴进去，便出现了一个特别的界面。接着点击“智能采集”，便会跳转至新页面。页面上，用红框标注的部分即为系统自动抓取的信息。但要注意，该网站可能包含多个列表内容，后羿采集器自动抓取的数据可能不完全满足需求。这时，我们需要将模式切换为“手动点击列表”来重新识别信息，就好比在迷宫中走错了路，得及时调整方向。

调整网页识别方式

若自动识别功能失效，请将“页面类型”区域的识别模式调整为“手动选择列表”。只有做到精确识别，我们才能保证收集到的信息是我们真正所需的。这就像准确找到宝藏的藏匿之处，才有机会找到宝物。手动选择能增加我们的控制力，更符合实际情况。

设置采集范围

点击“设置采集范围”，将“设置结束页”调整为“5”。同时，注意查看“分页设置”，确认“自动识别分页”是否成功。若未成功，需手动操作，点击“分页按钮”进行选择。后羿采集器会自动选取包含链接字段的首个链接，亦支持手动选择。这一过程类似于我们规划旅游路线，并决定如何在不同景点间移动。

导入网页信息

选择“文件导入”功能，挑选“后羿采集器测试.xlsx”文件，点击“确定”按钮，网页信息便全部导入完成。采用批量导入的方式，极大地节省了时间，使得数据采集工作能迅速启动。这就像是将众多货物迅速装载到运输工具中，从而踏上高效运输的旅程。

在使用后羿采集器抓取信息时，你是否遇到过识别错误的问题？若觉得这篇文章对你有帮助，请点赞并转发！