Apache Presto – 概述

Apache Presto – 概述


数据分析是分析原始数据以收集相关信息以做出更好决策的过程。它主要用于许多组织来制定业务决策。嗯,大数据分析涉及大量数据,这个过程非常复杂,因此公司使用不同的策略。

例如,Facebook 是世界上领先的数据驱动和最大的数据仓库公司之一。Facebook 仓库数据存储在 Hadoop 中以进行大规模计算。后来,当仓库数据增长到 PB 级时,他们决定开发一个低延迟的新系统。2012 年,Facebook 团队成员为交互式查询分析设计了“Presto”,即使处理 PB 级数据也能快速运行。

什么是 Apache Presto?

Apache Presto 是分布式并行查询执行引擎,针对低延迟和交互式查询分析进行了优化。Presto 可以轻松运行查询并且无需停机即可扩展,甚至可以从 GB 级扩展到 PB 级。

单个 Presto 查询可以处理来自多个来源的数据,如 HDFS、MySQL、Cassandra、Hive 和更多数据源。Presto 是用 Java 构建的,易于与其他数据基础架构组件集成。Presto 功能强大,Airbnb、DropBox、Groupon、Netflix 等领先公司正在采用它。

Presto – 功能

Presto 包含以下功能 –

  • 简单且可扩展的架构。
  • 可插拔连接器 – Presto 支持可插拔连接器为查询提供元数据和数据。
  • 流水线执行 – 避免不必要的 I/O 延迟开销。
  • 用户定义函数 – 分析师可以创建自定义的用户定义函数以轻松迁移。
  • 矢量化柱状处理。

Presto – 好处

以下是 Apache Presto 提供的好处列表 –

  • 专门的 SQL 操作
  • 易于安装和调试
  • 简单的存储抽象
  • 以低延迟快速扩展 PB 级数据

Presto – 应用程序

Presto 支持当今大多数最佳工业应用。让我们来看看一些值得注意的应用程序。

  • Facebook – Facebook 为数据分析需求构建了 Presto。Presto 可轻松扩展大数据速度。

  • Teradata – Teradata 提供大数据分析和数据仓库的端到端解决方案。Teradata 对 Presto 的贡献使更多公司能够更轻松地满足所有分析需求。

  • Airbnb – Presto 是 Airbnb 数据基础设施的一个组成部分。好吧,每天有数百名员工使用该技术运行查询。

为什么是 Presto?

Presto 支持标准的 ANSI SQL,这使得数据分析师和开发人员非常容易。虽然它是用 Java 构建的,但它避免了与内存分配和垃圾收集相关的 Java 代码的典型问题。Presto 有一个对 Hadoop 友好的连接器架构。它允许轻松插入文件系统。

Presto 在多个 Hadoop 发行版上运行。此外,Presto 可以从 Hadoop 平台访问以查询 Cassandra、关系数据库或其他数据存储。这种跨平台分析功能允许 Presto 用户从千兆字节到 PB 级数据中提取最大的业务价值。

觉得文章有用?

点个广告表达一下你的爱意吧 !😁