Apache Kafka – 介绍

Apache Kafka – 介绍


在大数据中,使用了大量的数据。关于数据,我们有两个主要挑战。第一个挑战是如何收集大量数据,第二个挑战是分析收集的数据。为了克服这些挑战,您必须需要一个消息传递系统。

Kafka 专为分布式高吞吐量系统而设计。Kafka 往往可以很好地替代更传统的消息代理。与其他消息系统相比,Kafka 具有更好的吞吐量、内置分区、复制和固有的容错能力,非常适合大规模消息处理应用程序。

什么是消息系统?

消息系统负责将数据从一个应用程序传输到另一个应用程序,因此应用程序可以专注于数据,而不必担心如何共享数据。分布式消息传递基于可靠消息队列的概念。消息在客户端应用程序和消息传递系统之间异步排队。有两种类型的消息传递模式可用 – 一种是点对点,另一种是发布-订阅 (pub-sub) 消息传递系统。大多数消息传递模式都遵循pub-sub

点对点消息系统

在点对点系统中,消息保存在队列中。一个或多个消费者可以消费队列中的消息,但一条特定的消息最多只能被一个消费者消费。一旦消费者读取队列中的消息,它就会从该队列中消失。该系统的典型示例是订单处理系统,其中每个订单将由一个订单处理器处理,但多个订单处理器也可以同时工作。下图描述了该结构。

点对点消息系统

发布-订阅消息系统

在发布订阅系统中,消息被持久化在一个主题中。与点对点系统不同,消费者可以订阅一个或多个主题并消费该主题中的所有消息。在发布-订阅系统中,消息生产者称为发布者,消息消费者称为订阅者。一个真实的例子是 Dish TV,它发布不同的频道,如体育、电影、音乐等,任何人都可以订阅自己的频道集,并在他们订阅的频道可用时获取这些频道。

发布-订阅消息系统

什么是卡夫卡?

Apache Kafka 是一个分布式发布-订阅消息系统和一个强大的队列,可以处理大量数据并使您能够将消息从一个端点传递到另一个端点。Kafka 适用于离线和在线消息消费。Kafka 消息持久保存在磁盘上并在集群内复制以防止数据丢失。Kafka 建立在 ZooKeeper 同步服务之上。它与 Apache Storm 和 Spark 很好地集成在一起,用于实时流数据分析。

好处

以下是 Kafka 的一些好处 –

  • 可靠性– Kafka 是分布式、分区、复制和容错的。

  • 可扩展性– Kafka 消息系统轻松扩展而无需停机。

  • Durability – Kafka 使用分布式提交日志,这意味着消息尽可能快地保留在磁盘上,因此它是持久的。

  • 性能– Kafka 在发布和订阅消息方面具有高吞吐量。即使存储了许多 TB 的消息,它也能保持稳定的性能。

Kafka 速度非常快,保证零停机和零数据丢失。

用例

Kafka 可用于许多用例。其中一些列在下面 –

  • Metrics – Kafka 通常用于操作监控数据。这涉及聚合来自分布式应用程序的统计数据以生成操作数据的集中提要。

  • 日志聚合解决方案– Kafka 可用于整个组织,从多个服务收集日志,并以标准格式将它们提供给多个消费者。

  • 流处理– Storm 和 Spark Streaming 等流行框架从主题读取数据,对其进行处理,并将处理后的数据写入新主题,供用户和应用程序使用。Kafka 的强持久性在流处理的上下文中也非常有用。

需要卡夫卡

Kafka 是处理所有实时数据馈送的统一平台。Kafka 支持低延迟消息传递,并在出现机器故障时提供容错保证。它有能力处理大量不同的消费者。Kafka 速度非常快,每秒执行 200 万次写入。Kafka 将所有数据持久化到磁盘,这实质上意味着所有写入都转到操作系统(RAM)的页面缓存中。这使得将数据从页面缓存传输到网络套接字非常有效。

觉得文章有用?

点个广告表达一下你的爱意吧 !😁