Scrapy – 饲料出口
Scrapy – 饲料出口
描述
Feed 导出是一种存储从站点抓取的数据的方法,即生成“导出文件”。
序列化格式
使用多种序列化格式和存储后端,Feed Exports 使用项目导出器并生成带有抓取项目的提要。
下表显示了支持的格式 –
Sr.No | 格式和说明 |
---|---|
1 |
JSON FEED_FORMAT 是json 使用的导出器是类 scrapy.exporters.JsonItemExporter |
2 |
JSON lines FEED_FROMAT 是jsonlines 使用的导出器是类 scrapy.exporters.JsonLinesItemExporter |
3 |
CSV FEED_FORMAT 是CSV 使用的导出器是类 scrapy.exporters.CsvItemExporter |
4 |
XML FEED_FORMAT 是xml 使用的导出器是类 scrapy.exporters.XmlItemExporter |
使用FEED_EXPORTERS设置,还可以扩展支持的格式 –
Sr.No | 格式和说明 |
---|---|
1 |
Pickle FEED_FORMAT 是pickel 使用的导出器是类 scrapy.exporters.PickleItemExporter |
2 |
Marshal FEED_FORMAT 是元帅 使用的导出器是类 scrapy.exporters.MarshalItemExporter |
存储后端
存储后端定义使用 URI 存储提要的位置。
下表显示了支持的存储后端 –
Sr.No | 存储后端和描述 |
---|---|
1 |
Local filesystem URI 方案是文件,用于存储提要。 |
2 |
FTP URI 方案是ftp,用于存储提要。 |
3 |
S3 |
4 |
Standard output URI 方案是标准输出,并且提要存储到标准输出。 |
存储 URI 参数
以下是存储 URL 的参数,在创建提要时会被替换 –
- %(time)s:这个参数被一个时间戳替换。
- %(name)s:这个参数被蜘蛛名替换。
设置
下表显示了可以配置 Feed 导出的设置 –
Sr.No | 设置和说明 |
---|---|
1 |
FEED_URI 它是用于启用提要导出的导出提要的 URI。 |
2 |
FEED_FORMAT 它是用于提要的序列化格式。 |
3 |
FEED_EXPORT_FIELDS 它用于定义需要导出的字段。 |
4 |
FEED_STORE_EMPTY 它定义是否导出没有项目的提要。 |
5 |
FEED_STORAGES 它是一个带有额外提要存储后端的字典。 |
6 |
FEED_STORAGES_BASE 它是一个带有内置提要存储后端的字典。 |
7 |
FEED_EXPORTERS 这是一本带有额外饲料出口商的字典。 |
8 |
FEED_EXPORTERS_BASE 它是一个带有内置提要导出器的字典。 |