Kafka简介和Ubuntu20.04安装kafka
简介
Kafka是一个实时数据处理系统,可以横向扩展、高可靠,而且还变态快,已经被很多公司使用。
那么什么是实时数据处理系统呢?顾名思义,实时数据处理系统就是数据一旦产生,就要能快速进行处理的系统。
对于实时数据处理,我们最常见的,就是消息中间件了,也叫MQ(Message Queue,消息队列),也有叫Message Broker的。
为什么需要消息中间件
消息中间件的作用主要有两点:
1. 解耦消息的生产和消费。
2. 缓冲。
想象一个场景,你的一个创建订单的操作,在订单创建完成之后,需要触发一系列其他的操作,比如进行用户订单数据的统计、给用户发送短信、给用户发送邮件等等,就像这样:
1 | createOrder(...){ |
代码这样写似乎没什么问题,可是过了一段时间,你给系统引进了一个用户行为分析服务,它也需要在订单创建完成之后,进行一个分析用户行为的操作,而且随着系统的逐渐壮大,创建订单之后要触发的操作也就越来越多,代码也渐渐膨胀成这样:
1 | createOrder(...){ |
导致代码越来越膨胀的症结在于,消息的生产和消费耦合在一起了。createOrder方法不仅仅要负责生产“订单已创建”这条消息,还要负责处理这条消息。
这就好比BBC的记者,在知道皇马拿到欧冠冠军之后,拿起手机,翻开皇马球迷通讯录,给球迷一个一个打电话,告诉他们,皇马夺冠了。
事实上,BBC的记者只需要在他们官网发布这条消息,然后球迷自行访问BBC,去上面获取这条新闻;又或者球迷订阅了BBC,那么订阅系统会主动把发布在官网的消息推送给球迷。
同样,createOrder也需要一个像BBC官网那样的载体,也就是消息中间件,在订单创建完成之后,把一条主题为“orderCreated”的消息,放到消息中间件去就ok了,不必关心需要把这条消息发给谁。这就完成了消息的生产。
至于需要在订单创建完成之后触发操作的服务,则只需要订阅主题为“orderCreated”的消息,在消息中间件出现新的“orderCreated”消息时,就会收到这条消息,然后进行相应的处理。
因此,通过使用消息中间件,上面的代码也就简化成了:
1 | createOrder(...){ |
以后如果在订单创建之后有新的操作需要执行,这串代码也不需要修改,只需要给对消息进行订阅即可。
另外,通过这样的解耦,消费者在消费数据时更加的灵活,不必每次消息一产生就要马上去处理(虽然通常消费者侧也会有线程池等缓冲机制),可以等自己有空了的时候,再过来消息中间件这里取数据进行处理。这就是消息中间件带来的缓冲作用。
Kafka一代 - 消息队列
从上面的描述,我们可以看出,消息中间件之所以可以解耦消息的生产和消费,主要是它提供了一个存放消息的地方——生产者把消息放进来,消费者在从中取出消息进行处理。
那么这个存放消息的地方,应该采用什么数据结构呢?
在绝大多数情况下,我们都希望先发送进来的消息,可以先被处理(FIFO),这符合大多数的业务逻辑,少数情况下我们会给消息设置优先级。不管怎样,对于消息中间件来说,一个先进先出的队列,是非常合适的数据结构:
那么要怎样保证消息可以被顺序消费呢?
消费者过来获取消息时,每次都把index=0的数据返回过去,然后再删除index=0的那条数据?
很明显不行,因为订阅了这条消息的消费者数量,可能是0,也可能是1,还可能大于1。如果每次消费完就删除了,那么其他订阅了这条消息的消费者就获取不到这条消息了。
事实上,Kafka会对数据进行持久化存储(至于存放多长时间,这是可以配置的),消费者端会记录一个offset,表明该消费者当前消费到哪条数据,所以下次消费者想继续消费,只需从offset+1的位置继续消费就好了。
消费者甚至可以通过调整offset的值,重新消费以前的数据。
那么这就是Kafka了吗?不,这只是一条非常普通的消息队列,我们姑且叫它为Kafka一代吧。
这个Kafka一代用一条消息队列实现了消息中间件,这样的简单实现存在不少问题:
· Topic鱼龙混杂。想象一下,一个只订阅了topic为“A”的消费者,却要在一条有ABCDEFG…等各种各样topic的队列里头去寻找topic为A的消息,这样性能岂不是很慢?
· 吞吐量低。我们把全部消息都放在一条队列了,请求一多,它肯定应付不过来。
由此就引申出了Kafka二代。
Kafka二代 - Partition
要解决Kafka一代的那两个问题,很简单——分布存储。
二代Kafka引入了Partition的概念,也就是采用多条队列, 每条队列里面的消息都是相同的topic:
Partition的设计解决了上面提到的两个问题:
纯Topic队列。一个队列只有一种topic,消费者再也不用担心会碰到不是自己想要的topic的消息了。
提高吞吐量。不同topic的消息交给不同队列去存储,再也不用以一敌十了。
一个队列只有一种topic,但是一种topic的消息却可以根据自定义的key值,分散到多条队列中。也就是说,上图的p1和p2,可以都是同一种topic的队列。不过这是属于比较高级的应用了,以后有机会再和大家讨论。
Kafka二代足够完美了吗?当然不是,我们虽然通过Partition提升了性能,但是我们忽略了一个很重要的问题——高可用。
万一机器挂掉了怎么办?单点系统总是不可靠的。我们必须考虑备用节点和数据备份的问题。
Kafka三代 - Broker集群
很明显,为了解决高可用问题,我们需要集群。
Kafka对集群的支持也是非常友好的。在Kafka中,集群里的每个实例叫做Broker,就像这样:
每个partition不再只有一个,而是有一个leader(红色)和多个replica(蓝色),生产者根据消息的topic和key值,确定了消息要发往哪个partition之后(假设是p1),会找到partition对应的leader(也就是broker2里的p1),然后将消息发给leader,leader负责消息的写入,并与其余的replica进行同步。
一旦某一个partition的leader挂掉了,那么只需提拔一个replica出来,让它成为leader就ok了,系统依旧可以正常运行。
通过Broker集群的设计,我们不仅解决了系统高可用的问题,还进一步提升了系统的吞吐量,因为replica同样可以为消费者提供数据查找的功能。
Kafka没那么简单
1. kafka的消息结构
我们只知道Kafka内部是一个消息队列,但是队列里的元素长什么样,包含了哪些消息呢?
2. zookeeper和kafka的关系
如果玩过Kafka的Quick Start教程,就会发现,我们在使用Kafka时,需要先启动一个ZK,那么这个ZK的作用到底是什么呢?
参考:What-is-the-actual-role-of-Zookeeper-in-Kafka
3. 数据可靠性和重复消费
生产者把消息发给Kafka,发送过程中挂掉、或者Kafka保存消息时发送异常怎么办?
同理,消费者获取消费时发生异常怎么办?
甚至,如果消费者已经消费了数据,但是修改offset时失败了,导致重复消费怎么办?
等等这些异常场景,都是Kafka需要考虑的。
参考:Kafka - Message Delivery Semantics
4. pull or push
消费者侧在获取消息时,是通过主动去pull消息呢?还是由Kafka给消费者push消息?
这两种方式各自有什么优劣?
5. 如何提高消费者处理性能
还是之前的订单创建的例子,订单创建后,你要给用户发送短信,现在你发现由于你只有一个消费者在发送短信,忙不过来,怎么办?这就有了Kafka里头的消费者组(Consumer Group)的设计。
参考:Understanding-kafka-consumer-groups-and-consumer
6.终极问题:一条消息从生产,到被消费,完整流程是怎样的?
如果能详尽透彻地回答这个问题,那你对Kafka的理解也就非常深入了。
7. 参考文献&学习资源
官网:
Apache Kafka
Kafka简介
Kafka官网文档
一些不错的博客:
How to choose the number of topics/partitions in a Kafka cluster?(对Kafka Partition的深入讲解和性能优化指导)
书籍(没看过,但是感觉不错的书):
Kafka权威指南
Apache Kafka源码剖析(可以自己先看看源码,再看看这本书)
安装JAVA(jdk)
下载安装包
(官网)链接:
还可以直接通过wget命令直接把JDK安装包下载下来,具体执行命令请度娘。
解压安装包
可自定义一个目录存(/home/temp)放并进行解压,执行命令行如下:
1 | # mkdir /home/temp |
将解压后的【jdk1.8.0_181】里面的所有数据移动到指定的文件夹下(如/usr/local/java)
1 | # mkdir /usr/local/java |
将【jdk1.8.0_181】里的数据拷贝至java目录下
1 | # mv /home/temp/jdk1.8.0_181 /usr/local/java |
修改环境变量
修改环境变量,通过命令
1 | # vim /etc/profile |
在文件末尾添加一下内容:
1 | export JAVA_HOME=/usr/local/java |
然后,保存并退出(按:wq!)
保存完之后,通过命令source /etc/profile让profile文件立即生效
第四步、测试是否安装成功
①、使用javac命令,不会出现command not found错误
②、使用java -version,出现版本为java version “1.8.0_181”
③、echo $PATH,看看自己刚刚设置的的环境变量配置是否都正确
测试没问题即安装成功
安装Zookeeper
下载
到官网去下载你想要的版本 官网下载地址
解压
1 | #tar -zxvf zookeeper-3.4.10.tar.gz |
将解压后的文件复制到/usr/local目录下,并重命名为zookeeper:
1 | [root@localhost tmp]# cp zookeeper-3.4.10 /usr/local/zookeeper -r //复制所有文件到zookeeper 文件夹下 |
配置
but 这里需要更改一下 .cfg 文件名 zookeeper 启动脚本默认是寻找 zoo.cfg 文件。。。。之所以 得修改文件名
切换到zookeeper目录下的conf目录下,重新复制一份zoo_sample.cfg文件并命名为zoo.cfg:
1 | [root@localhost zookeeper]# cd conf //切换到目录下 |
修改zoo.cfg文件如下:
1 | [root@localhost conf]# vi zoo.cfg |
修改内容:
增加了:admin.serverPort=8082 #不然会出现端口被占用的情况,因为默认是和Apache.Tomcat使用的8080端口
修改了:dataDir=D:\zookeeper-3.5.4-beta\data #保存数据的目录
dataLogDir=D:\zookeeper-3.5.4-beta\log #保存日志的目录
tickTime:这个时间是作为 Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。
dataDir:顾名思义就是 Zookeeper 保存数据的目录,默认情况下,Zookeeper 将写数据的日志文件也保存在这个目录里。
dataLogDir:顾名思义就是 Zookeeper 保存日志文件的目录
clientPort:这个端口就是客户端连接 Zookeeper 服务器的端口,Zookeeper 会监听这个端口,接受客户端的访问请求。
server.A = B:C:D
A表示这个是第几号服务器
B 是这个服务器的 ip 地址
C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口
D 表示的是万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的 Leader
最后一步配置环境变量:
打开/etc/profile
1 | [root@localhost zookeeper]# vi /etc/profile//编辑文件 |
添加如下内容:
1 | export ZOOKEEPER=/usr/local/zookeeper |
重启配置文件
1 | [root@localhost zookeeper]# source /etc/profile //使生效 |
启动Zookeeper
因为配置了环境变量,所以在任意目录下都可以运行以下启动命令启动Zookeeper。
1 | [root@localhost ~]# zkServer.sh start //启动 |
启动客户端:
1 | [root@localhost ~]# zkCli.sh //启动客户端 |
配置开机启动zookeeper
在/etc/init.d目录下新建zookeeper文件
vi /etc/init.d/zookeeper//vi 编辑zookeeper文件,不存在时就创建该文件
输入以下内容:
1 | #!/bin/bash |
- 保存并退出后,执行以下chkconfig --add 指令把脚本注册为Service:
1 | chkconfig --add zookeeper |
你可以使用chkconfig --list查看你的注册操作时否成功
注意:
1. Ubuntu 16.04 下安装 Nginx 服务器,在添加 nginx 服务时出现如下信息
1 | # chkconfig --add nginx |
问题原因
Ubuntu 中 chkconfig 已经被 sysv-rc-conf 所替代,chkconfig 命令如下:
1 | # chkconfig --add nginx |
问题解决
1 | # apt-get update |
2.Ubuntu下安装sysv-rc-conf报错:ubuntuE: Unable to locate package sysv-rc-conf
当我安装sysv-rc-conf时,报了如下的错:
E: Unable to locate package sysv-rc-conf(无法定位sysv-rc-conf包)
提供一个解决办法,如下:
在软件源列表sources.list(该文本的位置在/etc/apt/sources.list)文件中的末尾添加如下内容:
deb http://archive.ubuntu.com/ubuntu/ trusty main universe restricted multiverse
第一步:终端输入:sudo gedit /etc/apt/sources.list(这里我使用的是gedit,你可以使用自己喜欢的工具,如vi、vim等),打开该文件
1 | sudo gedit /etc/apt/sources.list |
第二步:在软件源sources.list文件中添加如下一列文本:
deb http://archive.ubuntu.com/ubuntu/ trusty main universe restricted multiverse
第三步:更新apt-get,在终端输入sudo apt-get update
1 | sudo apt-get update |
注意,此处更新可能会出错,重复执行更新就好了
第四步:完成更新后,重新安装sysv-rc-conf,在终端输入sudo apt-get install sysv-rc-conf,即可成功安装。
安装 kafka
下载代码
下载地址:https://kafka.apache.org/downloads,ubuntu下可以用wget直接下载,我是下载到了/home/kafka目录
1 | wget http://mirrors.shuosc.org/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz |
解压
1 | tar -zxvf kafka_2.11-1.0.0.tgz |
在kafka解压目录下创建日志存储目录
修改kafka-server 的配置文件
1 | vim config/server.properties |
修改配置文件中21、31、36和60行
1 | **broker.id=1** //--使用单机模式可以不修改 |
启动服务器
Kafka 使用 ZooKeeper 如果你还没有ZooKeeper服务器,你需要先启动一个ZooKeeper服务器。 您可以通过与kafka打包在一起的便捷脚本来快速简单地创建一个单节点ZooKeeper实例。
1 | bin/zookeeper-server-start.sh config/zookeeper.properties //--该启动脚本在kafka文件夹bin下面,不是在zookeeper里面 |
现在启动Kafka服务器:
1 | bin/kafka-server-start.sh config/server.properties |
创建一个topic
让我们创建一个名为“test”的topic,它有一个分区和一个副本:
1 | bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test |
现在我们可以运行list(列表)命令来查看这个topic:
1 | bin/kafka-topics.sh --list --zookeeper localhost:2181 |
或者,您也可将代理配置为:在发布的topic不存在时,自动创建topic,而不是手动创建。
发送消息
Kafka自带一个命令行客户端,它从文件或标准输入中获取输入,并将其作为message(消息)发送到Kafka集群。默认情况下,每行将作为单独的message发送。
运行 producer,然后在控制台输入一些消息以发送到服务器。
1 | bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test |
启动一个consumer
Kafka 还有一个命令行consumer(消费者),将消息转储到标准输出。
1 | bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning |
如果您将上述命令在不同的终端中运行,那么现在就可以将消息输入到生产者终端中,并将它们在消费终端中显示出来。
所有的命令行工具都有其他选项;运行不带任何参数的命令将显示更加详细的使用信息。




















