塞马尔特建议刮刮网页的5个步骤

Scrapy是一个开放源代码和框架,用于从其他网站提取信息。它使用API并用Python编写。 Scrapy目前由名为Scrapinghub Ltd的网络抓取公司维护。

这是一个有关如何使用Scrapy编写Web搜寻器,解析Craigslist并以CSV格式存储信息的简单教程。本教程的五个主要步骤如下:

1.创建一个新的Scrapy项目

2.编写蜘蛛爬网网站并提取数据

3.使用命令行导出抓取的数据

4.更改蜘蛛以跟随链接

5.使用蜘蛛参数

1.创建一个项目

第一步是创建一个项目。您将必须下载并安装Scrapy。在其搜索栏中,您应该输入要在其中存储数据的目录名称。 Scrapy使用不同的爬虫来提取信息,并且这些爬虫发出初始请求以创建目录。为了使蜘蛛工作,您需要访问目录列表并在其中插入特定的代码。密切注意当前目录中的文件,并注意两个新文件:quotes-a.html和quotes-b.html。

2.编写蜘蛛以爬网网站并提取数据:

编写蜘蛛和提取数据的最佳方法是在Scrapy的外壳中创建不同的选择器。您应始终将网址括在引号中;否则,Scrapy将立即更改这些URL的性质或名称。您应该在URL周围使用双引号来适当地编写蜘蛛。您应该使用.extract_first()并避免索引错误。

3.使用命令行导出抓取的数据:

使用命令行导出抓取的数据很重要。如果不导出,将不会获得准确的结果。蜘蛛程序将生成包含有用信息的不同目录。您应该使用yield Python关键字以更好的方式导出此信息。可以将数据导入JSON文件。 JSON文件对程序员很有用。诸如JQ之类的工具可帮助您毫无问题地导出抓取的数据。

4.更改蜘蛛以跟随链接:

在小型项目中,您可以更改蜘蛛程序以适当地跟随链接。但是对于大型数据抓取项目则没有必要。更改蜘蛛时,将设置“物料管道”的占位符文件。该文件可以在tutorial / pipelines.py部分中。使用Scrapy,您可以随时构建复杂的蜘蛛并更改其位置。您可以一次提取多个站点,并执行各种数据提取项目。

5.使用蜘蛛参数:

parse_author回调是一个蜘蛛参数,可用于从动态网站提取数据。您还可以使用特定代码为蜘蛛提供命令行参数。蜘蛛参数立即成为蜘蛛属性,并改变数据的整体外观。

在本教程中,我们仅介绍了Scrapy的基础知识。此工具有很多功能和选项。您只需要下载并激活Scrapy即可了解有关其规格的更多信息。