Scrapy – 抓取数据

Scrapy – 抓取数据


描述

存储抓取数据的最佳方法是使用 Feed 导出,这可确保使用多种序列化格式正确存储数据。JSON、JSON 行、CSV、XML 是序列化格式中容易支持的格式。可以使用以下命令存储数据 –

scrapy crawl dmoz -o data.json

此命令将创建一个data.json文件,其中包含 JSON 格式的抓取数据。这种技术适用于少量数据。如果需要处理大量数据,那么我们可以使用Item Pipeline。就像 data.json 文件一样,在tutorial/pipelines.py 中创建项目时会设置一个保留文件

觉得文章有用?

点个广告表达一下你的爱意吧 !😁