组织如何建立支持始终在线服务的DevOps文化。
始终在线服务的性质要求敏捷团队和DevOps团队不断做出响应。这些团队需要思考,而不是对单个事件做出反应,并调整团队的结构,价值观和工具,以确保卓越运营成为一项核心能力。
当今的用户期望现代服务永远在线且始终可用。停机时间可能有害,会损害声誉和底线,停机时间的平均成本高达每分钟9,000美金(6万人民币)。
但是,在云原生世界中,事件和代码中的错误一样,都是事实。导致停机的事件范围从硬件和网络故障到配置错误,资源耗尽,数据不一致和软件错误。
永远在线的服务要求团队思考超越单个事件的反应,并调整团队的结构,价值观和工具,以确保卓越运营成为一项核心能力。它需要采用构建,运行(YBIYRI)的实践,开发,构建,测试,部署和运行服务的所有权归开发团队所有。该概念将DevOps理论付诸实践,并加强了团队持续保持始终在线的服务所需的持续部署,反馈,维护或事件响应的周期。
永远在线服务的挑战
自14年前首次讨论以来,YBIYRI仍在挑战现代开发团队,以兑现其加快解决问题的速度并扩大运营最佳实践的承诺。不幸的是,许多团队仍然将自己的技能,进度表和流程作为对事件的反应,而不是长期成功的基础。
团队经常在没有充分准备的情况下转移到YBIYRI文化,而第一场重大事件通常以叫醒电话告终。但是,这种反应通常是由情绪触发的,“我们不能让事件再次发生”。为了实现此目的,引入了安全门,检查点和其他程序开销。此外,变更审查委员会和每周发布的审查均已成为团队礼节的一部分。仔细检查每项更改,以防止中断。虽然这通常可以减少事故发生,但可以减慢显影速度和产品动力。这可能会成为竞争劣势,因为更灵活的竞争对手可以更快地行动。
团队不间断服务的最佳实践
作战准备
YBIYRI团队的关键转变之一是将运营准备就绪作为冲刺计划和执行周期的一部分。操作准备就绪可能包括:
- 在开发过程中,在代码中构建适当的高质量警报,以最大程度地减少平均检测时间(MTTD)和平均隔离时间(MTTI)
- 构建监控器-适当时包括合成监控器-以确保相关服务按预期运行
- 分配时间来构建所需的仪表板并培训所有团队成员使用它们
- 确保在冲刺期间待命团队成员没有其他开发承诺
- 计划服务的“战争游戏”以确保回滚按预期进行
- 规划sprint中的带宽以关闭先前事件审查中的操作
- 作为冲刺周期的一部分,解决安全性(升级/补丁/滚动凭证)和操作问题
这些都要求产品所有者了解服务水平目标(SLO)并对其进行适当的优先排序,以及与功能开发和功能相关的业务承诺。
正确理解故障价值
在团队层面理解故障带来的价值可以为团队的YBIYRI之旅打下坚实的基础。故障价值指导您的团队进行事件响应。这些价值观确保了围绕构建和运营始终在线的服务的可持续文化的坚实基础。故障价值旨在:
- 指导人员和团队在事件和后续解决方案的自主决策
- 建立一致的团队文化,其中包括如何识别,管理事件并从中学习
- 使团队对事件识别,解决和反思的各个部分应采取的态度保持一致
《突发事件价值》行动清单提供了出色的指南,可帮助您在突发事件响应过程中识别团队价值,并制定计划以始终如一地实现这些价值观。如果您的团队在以客户为中心,团队凝聚力,共识,服务水平或服务监视器上的服务要求方面遇到困难,则可以提供帮助。