企业运维故障复盘步骤及改进方法.docx
《企业运维故障复盘步骤及改进方法.docx》由会员分享,可在线阅读,更多相关《企业运维故障复盘步骤及改进方法.docx(9页珍藏版)》请在第壹文秘上搜索。
1、数智万物下,运维组织面临不断变化的内外部环境,不仅要应对每天海量信息轰炸,还需要对信息进行有效思考,沉淀经验转化为能力,推动学习型组织文化.通常来说,学习包括三种:一种是向前人学习,比如看书,吸收前人的归纳总结,获得知识;第二种是周边经验学习,比如向周围的朋友、领先的资讯知识、举一反三经验等学习;第三种是向自己(个人或组织)学习,通过自己的分析、讨论、思考,将自己经验转化为能力或知识.而向自己学习,最常见方法就是复盘,即对过去所做事情*新思考、分析,找出膨响结果的因素,将好的行为或不足之处进行梳理,形成自己的经验知识,并最终转化为能力.本文尝试借鉴“发盘”的关键内涵,建立一条困绕“确定故障发盘
2、方式、梳理故障应急时间轴、还嫌故障处置行动、根因分析及经验沉淀,问题及改进措施跟踪.编写故障报告并发布”六个步骤的故障包盘改进方法.1.关于复盘上个月在3.3.1构建持续提升的故障管理能力中,我将故障管理闭环周期分为故障预防、故障发现、故障响应、故障定位、故障恢复、复盘改进”,其中豆盘改进是从“总结改进中改动而来,相比总结,豆盘需要有一定套路和方法,强调客观回顾、持续学习.我裳试用我个人时间管理例子对比一下总结与基盘的差异。以前我的时间管理相对随意,比如将日常临时性安排登记为任务,不定期反思收获.今年以来,我使用手帐做时间管理,用法如下:每天上班路上登记当天需关注事项,在每天的碎片时间段中将已
3、完成事项标注done),下班路上则根据手怅上己完成事项串起一天过程,通过手帐仪式感的例行反思,能持续在每日复盘中收获,比如:哪些待安排事项没安排好:这类事不一定我自己亲自做,但需要自己提前安排任务,作好计划.哪些需要提前沟通的事没有做:这类事只需要提前沟通即可减少后续的被动.哪些工作可以做得更好:针对已经完成的工作。哪些目标没完成:忘了?未就绪?延续到下一天?暂停?与预期不符的事背后合理的理由是什么:工作总会有些不破,关键要调整心态.相比而言,以前的不定期反思是“总结,最近的每日时间管理手帐可以归为“复盘。前者主要是反思总结,后者则在反思总结基地上增加了一些因素:持续性(笛天)、有方法(登记目
4、标事项,标注完成)、我(亲身经历者)、串起过程(回硕过程)、收获(影响目标的分析,收获经验).可能通过“包盆”响原懑可以进一步抽象复盘关键要素。复盘来自围棋,指棋手在下完一盘棋后,重新在棋盘把对弈过程摆一遍,看哪里下得好,哪里下得不好,以从全局角度更新分析、研讨模局过程,了解不足与优点,找到更好的经验方法,从而提升模力。综上,我们可以将发盘归纳为5个要素:持续性复盘(红盘拱局是常规操作)、参与者或实经历棋手)、描述完整经历(对弈过程)、分析研讨对错(分析、研讨棋同、转化为能力(收获经验,提升棋力)。2、关于故障复盘通常,一个严函的生产故障是多个层面上的连续性保障均失效的结果,比如:架构的高可用
5、、人员应急处置能力、常规预防准备工作、监控发现能力、自动化工具应急能力等.这与海恩法则的描述统一:海恩法则:一起更大的飞行安全事故背后都会有29个事故征兆,每个征兆背后又有300个事故苗头,每个苗头背后还有1000个事故电患.由此可见,对隐患、苗头、征兆的忽略,是导致意想不到的安全事故发生的罪魁祸首。:Kr1度百;心)海恩法则强调两点:一是事故的发生是量的积累的结果:二是人自身的素质和责任心.站在运维角度,作为业务连续性隈后一道防线,可以从技术手段与管理手段进行可用性能力建设.所以,故障红盘是对事前与事中环节红盘,不仅关注引发故障根源性问题,还需要推动应急协同、工作机制、人员锢力、预案管理、潜
6、在风睑、监控发现、应急工具、架构高可用、上下游系统风险等全方位的分析.区别于运维组织通常主要围绕“根因分析、编写报告、创建及跟踪问题3个故障鱼盘步骤,下面我尝试将上一节总结红盘的持续性红盘、参与者真实经历、描述完整经历、分析研讨对错、转化为能力.五个要素融入进来,梳理一条圉绕“确定故障豆盘方式、梳理故障应急时间轴、还原故覆处置行动、根因分析及经酸沉淀、问即及改进措施跟踪、编号故解报告并发布“六个步骤的故障复盘过程.故障复盘过程在分解上面六个步骤前,可能需要关注下面对故障复盘分解的步骤相对理想化,实际情况下由于组织每天都会有大信故障,要求每个故障都进行详细复盘无法实现,组织应该通过管理机制及工具
7、后能,摘取部分更点关键内容,减少故障红盘手工操作环节,让大部分故障在当天或24小时内即完成夏盘,少数正要故障则细化豆盘过程.蝮理故应急时间错行动根因分析及较聆沉淀告并发布2.1 确定故障豆盘方式每个故障都是运维团队学习成长的机会,我们不要浪费任何一个故障,要让故障登盘作为故障管理的必要环节。考虑到故障基盘涉及工作品较多,建议运维组织建立多种夏盘模板,针对不同复盘模板与参与人员范围来应对不同类型的故障.在模板中定义好:哪些人参加,输出什么,设计/架构/故障预防/故障处置/故障发现等执行情况,是否需要纳入日、周、月、季例会等.基于明确的判断条件提前制定故障宜盘模板,比如针对故障影响级别高低.正复性
8、故障、权益类交易、安全风险等.建议故障豆盘采用线上化的菅理工具落地,高级别的故障增加一些线下的辅助手段,比如对于故陪影响级别高的故障需要跨团队参与分析,包括产品或翕求团队从需求或设计角度评估软件逻辑设计角度评估,开发团队从架构或程序实现角度评估,测试团队对功能性与非功能性测试角度评估,SRE从系统稳定性、应急处置效率、应急协同、监控发现、自动化处置等角度评估,运维工具团队从监控、自动化麋作、日志等专项角度进行分析.整个故障分析尽量保持透明、公开,让故障参与各方能够客观的参与进来。除了根据明确条件判断的故障红盘模板,还有一类故障可能风险级别未达到高级别,但是在某方面已存在较大的风险隐患,比如潜在
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 故障 步骤 改进 方法