Scrapy – 饲料出口

Scrapy – 饲料出口


描述

Feed 导出是一种存储从站点抓取的数据的方法,即生成“导出文件”

序列化格式

使用多种序列化格式和存储后端,Feed Exports 使用项目导出器并生成带有抓取项目的提要。

下表显示了支持的格式 –

Sr.No 格式和说明
1

JSON

FEED_FORMAT 是json

使用的导出器是类 scrapy.exporters.JsonItemExporter

2

JSON lines

FEED_FROMAT 是jsonlines

使用的导出器是类 scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT 是CSV

使用的导出器是类 scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT 是xml

使用的导出器是类 scrapy.exporters.XmlItemExporter

使用FEED_EXPORTERS设置,还可以扩展支持的格式 –

Sr.No 格式和说明
1

Pickle

FEED_FORMAT 是pickel

使用的导出器是类 scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT 是元帅

使用的导出器是类 scrapy.exporters.MarshalItemExporter

存储后端

存储后端定义使用 URI 存储提要的位置。

下表显示了支持的存储后端 –

Sr.No 存储后端和描述
1

Local filesystem

URI 方案是文件,用于存储提要。

2

FTP

URI 方案是ftp,用于存储提要。

3

S3

URI 方案是S3,并且提要存储在 Amazon S3 上。外部库botocore 要么 boto 是必要的。

4

Standard output

URI 方案是标准输出,并且提要存储到标准输出。

存储 URI 参数

以下是存储 URL 的参数,在创建提要时会被替换 –

  • %(time)s:这个参数被一个时间戳替换。
  • %(name)s:这个参数被蜘蛛名替换。

设置

下表显示了可以配置 Feed 导出的设置 –

Sr.No 设置和说明
1

FEED_URI

它是用于启用提要导出的导出提要的 URI。

2

FEED_FORMAT

它是用于提要的序列化格式。

3

FEED_EXPORT_FIELDS

它用于定义需要导出的字段。

4

FEED_STORE_EMPTY

它定义是否导出没有项目的提要。

5

FEED_STORAGES

它是一个带有额外提要存储后端的字典。

6

FEED_STORAGES_BASE

它是一个带有内置提要存储后端的字典。

7

FEED_EXPORTERS

这是一本带有额外饲料出口商的字典。

8

FEED_EXPORTERS_BASE

它是一个带有内置提要导出器的字典。

觉得文章有用?

点个广告表达一下你的爱意吧 !😁