36 | 你应该怎么监控Kafka?
36 | 你应该怎么监控Kafka?
讲述:胡夕
时长14:27大小13.24M
主机监控
JVM 监控
集群监控
小结
开放讨论
赞 7
提建议
精选留言(23)
- 我已经设置了昵称2019-09-04要怎么看到JMX指标呢,能否讲下
作者回复: 无论是Broker端还是Clients端启动前要先设置JMX_PORT,然后使用任何能够连接JMX MBean Server的工具或框架连接(如JConsole)就能看到了
14 - r2019-08-24老师总结的真好。我有个疑问,没找到相关资料做支撑。就是一套kafka集群,最多能容纳多少个topic-partition,这个是集群规模有关吗,
作者回复: 根据社区的报告,Kafka 1.1.0之后可以支持单集群20万个分区。和集群规模不能说没有关系,但其实和集群总的物理硬件资源有很大关系。
7 - 快跑2020-03-14请教老师一下 从监控上能看到读取kafka数据是从页缓存还是磁盘么,对应的指标有哪些?
作者回复: 无法看出。不过你可以监控一下broker的磁盘IO,对于那些同步的consumer而言,磁盘IO读应该很少才对
3 - 钱2019-09-24感觉离开平台自己真的什么都不是,公司内部的监控挺全的,单机的CPU/硬盘/内存/网络/jvm等都有,也有针对方法级别的性能/可用率/调用次数,针对MQ有流入/流出/积压等,这里的每个监控工具都有专门的团队来负责,分工比较细,现在想一想业务开发,如果对业务不精通真是没有什么存在感和价值的。 感觉监控最大的痛点是怎么获取到对应的监控信息,只要能获取监控信息,剩下的就是怎么聚合和汇总展示的问题了。展开共 1 条评论5
- ykkk882019-08-25有什么好的开源的监控工具么
作者回复: 我觉得Kafka Manager就挺不错的
共 2 条评论4 - wxr2019-08-24怎样比较好的监控消费延时呢
作者回复: 这个取决于你对消费延时的定义。从Kafka的角度,当poll方法返回后,消息已经算是被消费了,但通常我们获取到消息后还要对消息进行处理,如果你认为处理完成后才算是消费就要加上这部分的时间,但处理逻辑、工具、方法都不尽相同,因此你需要自己来监控消息处理的总时间。
共 6 条评论3 - frenco2019-11-08老师好, 请教个问题: 按您之前有个推荐的配置kafka内存的说法,一般堆内存配置6G就好了。 那新生代和老年代默认2:1 分配。 如果只需要6G的内存, 我们生产的机器一般都是64G以上内存, 那机器是不是有很大浪费呢。
作者回复: 那就单台多broker吧,不过网卡最好万兆
共 2 条评论2 - Geek_72a3d32019-09-17“同时,Load 值一直在增加,也说明这台主机上的负载越来越大。” 老师,您好,Load值好像是越来越小。??
作者回复: 3个值的排序是过去1分钟,5分钟和15分钟,因此表明load越来越大
共 4 条评论2 - 谦寻2019-08-29请教下老师,我们最近遇到一个监控问题,监控各个topic的消息堆积,发现如果业务方由于服务下线,不使用某个consume group了,结果这个group的消息堆积会一直增加,运维就会收到监控告警,但是运维并不好判断哪个group已经不使用了,这个能有什么自动化的手段吗
作者回复: 如果group不使用了,它的状态就是nonactive了,一段时间之后Kafka会自动删除的它数据。如果判断状态的话,新一点版本的Kafka可以使用kafka-consumer-groups --describe --group *** 来查看group状态。
共 2 条评论3 - 外星人2019-08-24你好,单个topic可以支撑的最多partition个数多少啊?我们生产上有个topic超级大,占了整个集群的一半以上的流量,这种情况是需要拆分吗?
作者回复: 如果性能okay而仅仅是你觉得不太好,那么我认为先不用拆分。单个topic最多能有多少partition没有定数,主要还是看底层物理资源。当然分区数过多,使得broker上平均分区数增加的确会降低Kafka的TPS。
2 - 夏日2020-11-23ttl一般多少以内比较正常,比如在考虑在双活中心搭建一套kafka集群的时候,怎么判断不会由于节点之间的传输延时导致kafka性能不高?
作者回复: 通常ttl超过500ms就要关注下了
1 - 胡小禾2020-05-28“如果group不使用了,它的状态就是nonactive了” 这个nonactive 在ZK上是不是有节点?
作者回复: 目前Kafka的consumer group完全不使用ZooKeeper来保存元数据了,因此无论任何状态的group在ZK上都没有节点了
1 - 追光者2019-08-30老师,您好,想请教一个关于 Metricbeat 采集 kafka 数据的问题: 配置好 modules.d/kafka.yml 启动 metricbeat 采集不到数据,提示信息: 2019-08-29T16:13:33.827+0800 INFO kafka/log.go:53 kafka message: Successful SASL handshake 2019-08-29T16:13:33.828+0800 INFO kafka/log.go:53 SASL authentication successful with broker 10.162.7.2:9092:4 - [0 0 0 0] 2019-08-29T16:13:33.828+0800 INFO kafka/log.go:53 Connected to broker at 10.162.7.2:9092 (unregistered) 2019-08-29T16:13:33.832+0800 INFO kafka/log.go:53 Closed connection to broker 10.162.7.2:9092 system 的可以采集到,请问这是什么原因呀 配置文件: - module: kafka metricsets: - partition - consumergroup period: 10s hosts: ["10.162.3.90:9092"] client_id: xl retries: 3 backoff: 250ms topics: [] username: "admin" password: "admin"展开
作者回复: 这里都是IINFO日志看不出有什么问题,有其他日志吗?
共 3 条评论1 - ahu06052021-11-21胡老师,您对kafka部署k8s中有什么建议吗?
- 张亮2021-02-15Kafka监控是一个非常专业和体系化的事情,Elasticearch基本将系统指标、JVM指标作为Metric上报出来自闭环非常方便实用,在开源Logi-KafkaManager的时候,我一直计划将这些指标通过JMX直接暴露出来,你怎么看?
作者回复: 我觉得可行:)
1 - 你为啥那么牛2021-02-07这应该是最有水平的一篇文章了,经验值超高
作者回复: 过奖了~
1 - 谁谁2021-01-13老师,tps不是应该包括ttl?从客户端发送请求到服务端处理完成返回,文中为什么说tps小而ttl大呢?
作者回复: 这两个概念没有直接的关联吧
- Rosy2019-12-23kafka会频繁地删掉broker,导致频繁地切换leader,这是什么情况呢
作者回复: 能详细解释下”删掉broker”的含义吗?
- 风中花2019-11-30老师你的公众号怎么找到呢
作者回复: 大数据Kafka技术分享
1 - 皇甫2019-11-04老师,您好,最近遇到一个实践问题,通过调用kafka manage提供的api获取topic的流入消息数量,有时候有延时,在生产者流量激增的情况下,api不能及时返回消息流入数量,想问下这是什么原因,有啥解决办法吗?谢谢
作者回复: 不太清楚kafka manager API是怎么实现的。你可以用下jmxtool工具去实时监控下Kafka提供的JMX,看看是否有延迟呢?