30 | 四线复盘法:怎么避免成为背锅侠?
30 | 四线复盘法:怎么避免成为背锅侠?
讲述:安晓辉
时长11:45大小10.77M
问题复盘
四线复盘法
第一条线:时间线
第二条线:问题链
第三条线:责任链
第四条线:改进线
案例:线上商城
1. 时间线
2. 问题链
3. 责任链
4. 改进线
小结
思考题
赞 13
提建议
精选留言(13)
- 王同学2021-02-10问题源头承担主责,问题放大者承担主责分不清楚。比如上游的数据格式出错,导致下游需要用数据的服务都有问题,那么是上游源头主责,还是下游放大问题者主责。上游定主责没问题,因为产生了错误的数据。下游定主责也可以,因为下游没有兼容缺陷数据。这个时候怎么定责
作者回复: 你要看下游有没有放大问题,注意是放大,而不是说出错,因为上游数据格式出错,正常来说下游肯定出错,只要没放大就没问题。
共 4 条评论5 - cloud2021-08-31李老师,我有些困惑。我们公司现在很多时候复盘也复盘了,也制定了一些措施,避免后续不再犯此类错误。但是一段时间之后,似乎又回到了老样子,如何让复盘后的措施,在团队中持续有效,这方面您有什么经验么?
作者回复: 要么落实到流程、要么落实到工具和系统,不能依赖人
共 2 条评论4 - 菜心19862021-02-14复盘什么频率做一次?复盘的归因和追责部分要到什么程度? 这里的追责结果是否代表个人本身有问题?或者本人能力不行? 多大的问题要追责,比如一周没事是否也要找个问题来汇报? 追责是否都是底层人人员,领导或者老板会有问题可以复盘么?
作者回复: 1. 这里讲的是线上问题复盘,事件触发模式,不需要定期举行。 2. 多大问题要追责,实行什么样的奖惩措施,是公司或者团队要预先制定规则的。 3. 看问题大小来复盘和追责,支付宝5.27全网宕机的事故,总裁都要担责。
4 - 🍭2021-07-12作为研发怎么判断产品提出的需求是否合理呢,可以从哪几部分进行分析?
作者回复: 并没有很好的方法,更多靠个人的积累,如果遇到自以为是的产品或者运营,沟通很麻烦,我在阿里都遇到很多这样的产品,能力一般还很自信,开口闭口乔布斯、苹果之类的
共 3 条评论2 - 周平2021-04-11复盘的目的是找到问题的原因并改进,避免同样的问题反复出现,降低问题的发生的概率和影响。 我觉得,如果定不好责,特别影响复盘的目的,走偏。 想想以前被定过的责,好像是公平的,让人口服的,至少从逻辑上是找不出什么毛病来。 又一想,领导嘛,总能想出一些手段,做到逻辑上走通没毛病,再加上信息不对称,以及作为下属的弱势,总有办法让你说不出什么。 同时,又感到,做的事越多,越容易被人揪住辫子,追责。总的感受,我做了那么多事情,那么努力,结果奖励没见多少,还受罚了。 本文定责的原则,对我很有用,至少能帮我确定一些原则和边界。 同时,应从大利益的维度去考虑事情,不要太计较这些。 我自己还有个问题,心里特别怕出错,好像出了个错,好像天要塌下来一样。 其实,想想看,不需要看的那么重。 看来,定责是领导的一个技能,不是做事儿的人的技能,怎样定责也不在做事儿的人的影响范围内。 事情该做就做,重要的还是自己的成长。 回想了一下自己受过的责,也没几件。 这些受责是否影响了自己的成长和晋升呢? 我觉得最关键的还是自己的学识,认知。这方面的瓶颈,更大的影响了自己的晋升和成长。展开
作者回复: 被别人定责的时候,明确定责标准再根据标准找事实,基本上能够避免背黑锅。 你对定责的理解已经到了新的境界,点赞👍🏻 其实我也出过事单过责,但长期来看,关键还是自己成长,某次担责并不可怕,有时候担责反而让自己理解更深,印象更深
共 3 条评论2 - 菜心19862021-02-14这里的技术负责人都是底层研发吧。管理层,比如经理没有承担责任么? 另外,团队合作时,比如测试遗漏怎么定?比如需求文档没有明确要求,测试是不是不需要关心了,出了问题也是无责任? 或者这个因公司而异,都可以?
作者回复: 1. 团队leader也要承担连带责任 2. 大部分公司以结果导向,即使需求文档没写,如果是正常需求需要考虑的,在设计和测试的时候都要覆盖,需求文档不可能事无巨细全部覆盖到。
共 2 条评论1 - qinsi2021-02-09“问题放大者承担主责”不是很理解。如果A是问题源头,B放大了问题,这时候是源头主责还是放大者主责呢?
作者回复: B的主责肯定是跑不掉,至于A是不是主责,要看A造成的问题大小。举个例子,如果A的问题只持续了1分钟就解决了,那不需要承担主责,如果A本身也导致了30分钟的问题,那么也是要承担主责的。
1 - Geek_14beb82023-01-17 来自广东因为人为事故,我被安排进了优化名单。 起初事故复盘之时,已经定责主责是操作接入层的人员,自身部门的责任是没有做好验证和及时监控处理,由我这边技术组长主导了事故的复盘,事故后期没有再发生,认为此事已处理妥当。 自身没有意识到风险,也没有和领导对这件事做更多反馈。 后来考核评语,只有事故的负面评价,对半年来的工作产出只字不提,认为忙碌的工作都只是战术上的勤奋,战略上的懒惰。另外主导复盘的同事受到年度的优秀员工奖。 因为考核给了非常差的评价,接下来公司又恰好有一轮人员优化,我就这进了名单。 职业生涯一道坎,就这样离开心心念念的中意的公司,非常惋惜。展开
作者回复: 吃一堑长一智,从错误和失败中学习,不要气馁,我曾经也犯过上线就失败的错误。
- 毛成方2023-01-08 来自浙江把问题摆在台面上 直面问题 讲明白 分析明确 责任到人奖惩措施 落地的改进措施
- xing.org1^2022-10-26 来自广东案例:临近大促流量高峰时刻,后端修改线上数据配置出错,导致返回给前端的数据缺失一个字段,前端因没做容错导致页面挂掉(js报错后阻塞页面渲染),进而使得线上所有用户打开都是空白页,个别用户反馈问题后研发才发现并修复。 请问老师,上述案例中后端配置错误是主责,前端因为没做容错放大了错误是不是主责呀?如果是的话,二者哪个更重呢?展开
作者回复: 这里主责是前端,因为前端放大了错误的影响;后端配置出错只是导致缺失一个字段,这个字段对业务的影响不至于导致页面挂掉,用户完全无法使用业务;就算后端不配置错误,前端对于后端返回的数据,也应该做基本的容错处理。
共 3 条评论 - 怀揣梦想的学渣2022-07-07责任划分的太细致明确,反而导致团队互相甩锅,复盘时候都在急于撇清自己的责任,甚至弱化自己做错事情的程度。如果有连带责任,团队会互相监督,避免让对方的犯错拖累自己,除非集体摆烂。 能用程序标准化管理的事情,就避免人去处理,人总有犯错的时候,再专业的也有犯错的时候。特别是经验老道的人,我所在团队就有一个老员工,凭借丰富的经验,给客户做安全配置,配置结束后,两个三线城市的短信业务全下线了,好在恢复比较快,五分钟就搞定。但是客户已经有感知和吐槽。复盘发现,是配置安全规则的时候人工手写写错了一个子网范围,后来统一要求图形界面勾选,再也没出过故障。展开
作者回复: 理想情况当然能用系统做到最好,但总的有个建设过程,而且很多线上故障并不是靠开发一个系统就可以避免的。
- bin的技术小屋2021-05-25背锅侠前来报道
作者回复: 好好学习这一讲,可以避免背黑锅 :)
- 大魔王汪汪2021-03-01文中的case从发现到回滚,故障持续了1个多小时,那这个服务的全年可用性就只有4个9了吧
作者回复: 4个9都没有了😂