根据Kafka官网的介绍,Kafka是一个分布式流平台,这个介绍的真正含义是什么呢?
流平台主要由三个关键的能力:
发布和订阅记录流,类似于消息队列
以容错的方式持久化存储流数据
处理流式数据
Kafka通常被用于两大类应用:
- 建立实时数据管道,在各个系统或应用间可靠地获取数据
- 建立实时流失应用去传输或者是处理流式数据
为了了解kafka是如何实现这些功能的,我们要从头到尾了解kafka的构成。
首先要了解一些概念:
- kafka是集群部署的,可以跨越多个数据中心
- kafka集群按类存储流式数据,这些类别被称为topics
- 每一条数据由key,value和timestamp组成
kafka主要有四类核心api:
- Producer API:允许应用发布流式数据到一个或多个kafka的topic上
- Consumer API:允许应用订阅一个或多个topic,并处理其生成的数据流
- Streams API:允许应用扮演流处理器的功能,从一个或多个topic中消费输入流,并产生一个输出流到一个或多个topic中,高效的将输入流转换为输出流
- Connector API:允许建立和运行一个可复用的producer或consumer,将kafka的topics连接到已经存在的应用或数据系统中。比如,connector可以连接到一个关系型数据库,以监测数据库表的所有变化。
kafka专用术语:
Broker:Kafka 集群包含一个或多个服务器,这种服务器被称为 broker。
Topic:每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Topic。(物理上不同 Topic 的消息分开存储,逻辑上一个 Topic 的消息虽然保存于一个或多个 broker 上,但用户只需指定消息的 Topic 即可生产或消费数据而不必关心数据存于何处)。
Partition:Partition 是物理上的概念,每个 Topic 包含一个或多个 Partition。
Producer:负责发布消息到 Kafka broker。
Consumer:消息消费者,向 Kafka broker 读取消息的客户端。
Consumer Group:每个 Consumer 属于一个特定的 Consumer Group(可为每个 Consumer 指定 group name,若不指定 group name 则属于默认的 group)。
Partition offset:每条消息都有一个当前Partition下唯一的64字节的offset,它指明了这条消息的起始位置。
Replicas of partition:副本是一个分区的备份。副本不会被消费者消费,副本只用于防止数据丢失,即消费者不从为follower的partition中消费数据,而是从为leader的partition中读取数据。
Leader:每个partition有多个副本,其中有且仅有一个作为Leader,Leader是当前负责数据的读写的partition。
Follower:Follower跟随Leader,所有写请求都通过Leader路由,数据变更会广播给所有Follower,Follower与Leader保持数据同步。如果Leader失效,则从Follower中选举出一个新的Leader。当Follower与Leader挂掉、卡住或者同步太慢,leader会把这个follower从“in sync replicas”(ISR)列表中删除,重新创建一个Follower。
zookeeper的作用:
- Zookeeper:Zookeeper负责维护和协调broker。当Kafka系统中新增了broker或者某个broker发生故障失效时,由ZooKeeper通知生产者和消费者。生产者和消费者依据Zookeeper的broker状态信息与broker协调数据的发布和订阅任务。
topics和logs
topic是消息发布的类别,在kafka中,topic总是有多个订阅者的,也就是说,可以有0个,1个或多个消费者去订阅写入的数据。
对于每一个topic,kafka集群保存一个分类log,如下:
每一个分类是一个有序的,不可数的记录序列,数据每次选择一个partion添加到最后。选择的partion号和在partion中的offset唯一定义了一条记录。
kafka集群会持久化消息数据,不管这条消息是否被消费。这个记录的周期是可以配置的,比如你设置为2天,那么一条消息被发布后,会持久化两天,然后被删除。
实际上,为每一个消费者存储的元数据只有消费的offeset,消费者可以控制offset的位置,比如跳过一些中间内容,直接消费最新的内容也是可以做到的。
发布
每一个partition有一个服务器扮演leader角色,有0个或多个服务器扮演follower角色。leader处理所有当前partion的读写请求,follower只是被动地复制leader,如果leader机宕机,剩下的follower中会自动产生新的leader。
一个消费者订阅数据:
- 生产者将数据发送到指定topic中
- Kafka将数据以partition的方式存储到broker上。Kafka支持数据均衡,例如生产者生成了两条消息,topic有两个partition,那么Kafka将在两个partition上分别存储一条消息
- 消费者订阅指定topic的数据
- 当消费者订阅topic中消息时,Kafka将当前的offset发给消费者,同时将offset存储到Zookeeper中
- 消费者以特定的间隔(如100ms)向Kafka请求数据
- 当Kafka接收到生产者发送的数据时,Kafka将这些数据推送给消费者
- 消费者受到Kafka推送的数据,并进行处理
- 当消费者处理完该条消息后,消费者向Kafka broker发送一个该消息已被消费的反馈
- 当Kafka接到消费者的反馈后,Kafka更新offset包括Zookeeper中的offset。
- 以上过程一直重复,直到消费者停止请求数据
- 消费者可以重置offset,从而可以灵活消费存储在Kafka上的数据
消费者组数据消费流程
Kafka支持消费者组内的多个消费者同时消费一个topic,一个消费者组由具有同一个Group ID的多个消费者组成。具体流程如下:
- 生产者发送数据到指定的topic
- Kafka将数据存储到broker上的partition中
- 假设现在有一个消费者订阅了一个topic,topic名字为“test”,消费者的Group ID为“Group1”
- 此时Kafka的处理方式与只有一个消费者的情况一样
- 当Kafka接收到一个同样Group ID为“Group1”、消费的topic同样为“test”的消费者的请求时,Kafka把数据操作模式切换为分享模式,此时数据将在两个消费者上共享。
- 当消费者的数目超过topic的partition数目时,后来的消费者将消费不到Kafka中的数据。因为在Kafka给每一个消费者消费者至少分配一个partition,一旦partition都被指派给消费者了,新来的消费者将不会再分配partition。即一个partition只能分配给一个消费者,一个消费者可以消费多个partition。