笔记首页 >> scrapy >> Scrapy – 概述

Scrapy – 概述

Scrapy – 概述

Scrapy 是一个用 Python 编写的快速、开源的网络爬虫框架，用于在基于 XPath 的选择器的帮助下从网页中提取数据。

Scrapy 于 2008 年 6 月 26 日首次发布，并在 BSD 下获得许可，并于 2015 年 6 月发布了里程碑 1.0。

为什么要使用 Scrapy？

更容易构建和扩展大型爬行项目。
它有一个称为选择器的内置机制，用于从网站中提取数据。
它异步处理请求并且速度很快。
它使用自动节流机制自动调整爬行速度。
确保开发人员的可访问性。

Scrapy 的特点

Scrapy 是一个开源且免费使用的网络爬虫框架。
Scrapy 以 JSON、CSV 和 XML 等格式生成提要导出。
Scrapy 内置支持通过 XPath 或 CSS 表达式从源中选择和提取数据。
基于爬虫的 Scrapy，允许自动从网页中提取数据。

优点

Scrapy 易于扩展、快速且功能强大。
它是一个跨平台的应用程序框架（Windows、Linux、Mac OS 和 BSD）。
Scrapy 请求是异步调度和处理的。
Scrapy 带有称为Scrapyd 的内置服务，它允许使用 JSON 网络服务上传项目和控制蜘蛛。
可以废弃任何网站，尽管该网站没有用于访问原始数据的 API。

缺点

Scrapy 仅适用于 Python 2.7。+
不同操作系统的安装是不同的。

觉得文章有用？

点个广告表达一下你的爱意吧！