18 | 蓝绿红黑灰度发布：这些五颜六色的发布到底怎么用？

Oct 2, 2019

18 | 蓝绿红黑灰度发布：这些五颜六色的发布到底怎么用？-极客时间



下载APP





关闭

讲堂部落提薪训练营云原生训练营架构实战营企业版极客商城兑换中心 App下载浏览器插件

渠道合作

推荐作者

18 | 蓝绿红黑灰度发布：这些五颜六色的发布到底怎么用？

2019-10-02 葛俊来自北京

《研发效率破局之道》

课程介绍



讲述：葛俊

时长16:10大小14.80M



你好，我是葛俊。今天，我来和你聊聊最近流行的一些部署、发布方法，以及测试右移。
最近几年，我见到了很多跟颜色相关的部署、发布方法，比如蓝绿部署、红黑部署、灰度发布等。今天，我会首先与你分享它们的基本定义和要解决的根本问题；然后，与你一起深入看一看高效应用这些方法的基本原则，以及一些具体的实践。
各种部署方式的定义我们先来看看蓝绿部署（Blue-green Deployment）、红黑部署（Red-black Deployment）和灰度发布（Gray Release ，或 Dark Launch）的定义和流程吧。
蓝绿部署蓝绿部署，是采用两个分开的集群对软件版本进行升级的一种方式。它的部署模型中包括一个蓝色集群 A 和一个绿色集群 B，在没有新版本上线的情况下，两个集群上运行的版本是一致的，同时对外提供服务。
系统升级时，蓝绿部署的流程是：
首先，从负载均衡器列表中删除集群 A，让集群 B 单独提供服务。
然后，在集群 A 上部署新版本。
接下来，集群 A 升级完毕后，把负载均衡列表全部指向 A，并删除集群 B，由 A 单独提供服务。
在集群 B 上部署完新版本后，再把它添加回负载均衡列表中。
这样，我们就完成了两个集群上所有机器的版本升级。
红黑部署与蓝绿部署类似，红黑部署也是通过两个集群完成软件版本的升级。
当前提供服务的所有机器都运行在红色集群 A 中，当需要发布新版本的时候，具体流程是这样的：
先在云上申请一个黑色集群 B，在 B 上部署新版本的服务；
等到 B 升级完成后，我们一次性地把负载均衡全部指向 B；
把 A 集群从负载均衡列表中删除，并释放集群 A 中所有机器。
这样就完成了一个版本的升级。
可以看到，与蓝绿部署相比，红黑部署只不过是充分利用了云计算的弹性伸缩优势，从而获得了两个收益：一是，简化了流程；二是，避免了在升级的过程中，由于只有一半的服务器提供服务，而可能导致的系统过载问题。
至于这两种部署方式名字中的“蓝绿”“红黑”，只是为了方便讨论，给不同的集群取的名字而已，通过不同颜色表明它们会在系统升级时运行不同的版本。
灰度发布灰度发布，也被叫作金丝雀发布。与蓝绿部署、红黑部署不同的是，灰度发布属于增量发布方法。也就是说，服务升级的过程中，新旧版本会同时为用户提供服务。
灰度发布的具体流程是这样的：在集群的一小部分机器上部署新版本，给一部分用户使用，以测试新版本的功能和性能；确认没有问题之后，再对整个集群进行升级。简单地说，灰度发布就是把部署好的服务分批次、逐步暴露给越来越多的用户，直到最终完全上线。
之所以叫作灰度发布，是因为它介于黑与白之间，并不是版本之间的直接切换，而是一个平滑过渡的过程。
之所以又被叫作金丝雀发布，是因为金丝雀对瓦斯极其敏感，17 世纪时英国矿井工人会携带金丝雀下井，以便及时发现危险。这就与灰色发布过程中，先发布给一部分用户来测试相似，因而得名。
好了，以上就是几种有颜色的部署发布方式了。如果你还有哪些地方理解得不够透彻，可以去网络上搜索相关文章，或者直接给我留言吧。接下来，我将继续按照黄金圈法则，来帮助你深入了解这些部署、发布方式的 Why、How 和 What。
蓝绿、红黑部署和灰度发布的 Why究其根本，这些部署、发布方法，是为了解决频繁发布的生产模式带来的两个问题：
减少发布过程中新旧服务切换造成的服务停止时间。蓝绿部署和红黑部署都能实现无宕机时间部署（0 downtime deployment）。
控制新版本发布因为质量问题带来的风险。灰度发布就是一个例子。
蓝绿红黑灰度发布的 How实现这两个目标的基本原则，是把服务上线过程拆分为部署、发布和发布后 3 个阶段，并充分利用这 3 个阶段的特点来提高服务上线的效率、质量和安全性。
这 3 个阶段的详细定义和特点分别是：
部署（deploy），指的是我们把一个代码包拷贝到服务器上运行，但并不把它暴露给用户，也就是并不给用户提供服务。这个阶段比较耗时，但因为还没有面向用户，所以风险很小。
发布（release），是把部署好的服务暴露给用户的过程，也就是开始真正上线服务用户了。这个过程可以通过负载均衡的切换很快实现，但风险很大，一旦出现问题损失就会比较大。
发布后（post-release），指的是服务完全上线以后的阶段。因为产品已经完全上线，我们的主要工作不再是预防，而是变成了监控和降低损失。
以红黑部署为例，从开始在新生成的集群 B 上部署新的版本，到线上的流量通过负载均衡指向 B 之前，是处于部署阶段；而负载均衡从 A 指向 B 的过程，就是发布阶段；等到负载均衡完全指向 B 之后，就进入了发布后阶段。
部署、发布、上线这几个名词，其实区分不太明显，我们平时在讨论服务部署上线时，也经常会混用。在这里，我之所以要和你明确区分这几个阶段，是因为我们可以针对每个阶段的特点来实现两个目标：
提高上线产品的效率，也就是减少发布过程中新旧服务切换造成的服务停止时间。
提高上线产品的安全性，也就是控制新版本引入的质量问题。
蓝绿、红黑部署和灰度发布 What关于提高上线产品的效率，实践主要有两个：一是利用负载均衡切换线上流量，二是使用功能开关切换线上流量。这两种方法都比较简单。
而提高上线产品的安全性，相对来说就比较复杂了，但又很重要。因为在敏捷、持续交付等开发模式愈发流行的今天，产品的研发节奏越来越快，我们必须在上线过程中，在生产环境上进行更多的测试，以保证产品质量。
讲到这里，你可能一下就想到了，这正是我们在上一篇文章中提到的测试右移要做的工作。接下来，我就与你分别介绍如何在部署、发布、发布后这 3 个阶段提高上线产品的安全性，也就是测试右移的实践。
部署阶段的实践在部署阶段，因为服务还没有真正面对用户，所以比较安全。在这一步，我们可以尽量运行比较多的检验。但一定要注意的是，我们在运行检验的时候，不能产生副作用，也就是不能影响到正在给用户提供服务的系统。具体来说，我们可以运行集成测试、流量镜像（shadowing，也叫作 Dark Traffic Testing or Mirroring）、压测和配置方面的测试这 4 种检验。
第一种检验是，集成测试。
集成测试，指的是对模块之间的接口，以及模块组成的子系统进行的测试，介于单元测试和系统测试之间。
传统的集成测试是在测试环境或类生产环境上进行的。这种方式的问题在于，测试运行的环境和生产环境差别较大，不容易发现生产环境可能会出现的问题。一个最典型的原因是，在这些非生产环境上，只有测试用例在运行，没有在处理任何真实的用户请求，所以在生产环境中运行集成测试，才可能发现在非生产环境上难以发现的问题。
在具体进行集成测试的时候，如果所做的操作没有产生数据，也就是不会产生副作用，会比较安全。如果产生了数据，我们一般有两种处理方法：
第 1 种方法是，对测试产生的数据添加一个“测试”标签。同时代码的逻辑，对有测试标签的数据都进行特殊处理，比如说完全忽略。
第 2 种方法是，对测试用例产生的请求，就直接不写数据。具体实现方法是，在业务里直接添加这个特殊处理的逻辑。如果你使用的是服务网格（Service Mesh），则可以使用服务的代理（比如 Sidecar Proxy）来进行处理。
第二种检验是，流量镜像。
流量镜像，指的是对线上流量的全部或者一部分进行复制，并把复制的流量定向到还没有面向用户的服务实例上，从而达到使用线上流量进行测试的效果。
关于引流的实现，通常是使用代理，比如 Envoy Proxy 和 Istio 配合使用。如果你想深入了解引流的实现方式，可以参考“使用 Envoy 做镜像引流”这篇文章。
需要注意的是，使用引流进行测试时，不能给生产环境带来副作用。具体办法与集成测试的处理方法类似，我们也可以给引流产生的数据打标签，在流量复制的时候，对复制的请求统一添加一个特殊字段（比如 shadow），从而让接收到请求的服务可以对其进行特殊处理。
使用流量镜像，除了普通的检测之外，还有一个比较有用的实践就是，对测试流量与实时服务流量的运行结果进行对比，来检查新服务的运行是否符合预期。Twitter 在 2015 年开源了一款这样的代理工具Diffy ，它可以在镜像流量的同时调用线上服务和新服务，并对结果进行对比。
第三种检验是，压测。
压测，也是在部署阶段比较有价值的一种测试方法。比如，我们可以把新服务部署到一个比较小的集群上，然后把线上环境的流量全部复制并指向这个新集群，以相对客观地了解最新服务的抗压能力。
第四种检验是，配置方面的测试。
系统配置方面的变更，一旦出现问题，往往会给业务带来重大损失。部署阶段，因为不直接面向用户，所以是测试配置变更的好时机。
如果你想深入了解这部分内容的细节，可以参考Facebook 关于可靠性的见解这篇文章。
发布阶段的实践在发布阶段，我们可以使用金丝雀发布和监控两种方法，来及早发现错误，并减少错误带来的损失。
第一个方法是，金丝雀发布。
金丝雀发布，是发布阶段最基本、最常见的实践。这里，我两个小贴士：
让金丝雀服务先面向内部用户，也就是 Dogfooding，来降低出现问题时造成的损失。
最近几年出现的一些部署工具和平台，比如 Spinnaker，已经对金丝雀发布有了比较好的支持。你可以考虑直接使用，降低引入成本。
第二个方法是，监控。
监控，是安全发布必不可少的关键环节，其重要性不言自明。在发布过程中，我们应该注意监测用户请求失败率、用户请求处理时长和异常出现数量这几个信息，以保证快速发现问题并及时回滚。
发布后的实践产品成功发布之后，我们的主要工作就是监控和补救，具体实践包括三个：监控、A/B 测试和混沌工程（Chaos Engineering）。
第一个实践是，监控。
服务上线后，我们需要提供有效的监控，来了解服务的质量。关于监控的内容，我推荐参考可观察性（Observability）的三大支柱，即日志、度量和分布式追踪。如果你想深入了解这部分内容，推荐你看一下这篇文章。
第二个实践是，A/B 测试。
系统上线之后发现问题，有一个快速的补救办法是，继续使用旧的服务代码。对于这一点，我们可以通过 A/B 测试的方法来实现。
也就是说，添加风险比较大的新功能时，使用 A/B 测试让新旧功能并存，通过配置或者功能开关决定使用哪一个版本服务用户。如果发现新功能实现有重大问题，可以马上更改配置（而不需要重新部署服务），就能重新启用旧版本。
第三个实践是，混沌工程。
混沌工程，指的是主动地在生产环境中引入错误，来测试系统的可靠性的工程方法。最早为人熟知的混沌工程，是网飞（Netflix）公司的 Chaos Monkey。这种方法可以引入的错误主要包括：
杀死系统中的节点，比如关闭服务器；
引入网络阻塞的情况；
切断某些网路链接。
不过，一般是在公司达到了很好的稳定性之后，对稳定性有更上一层楼的需求时，或者是对稳定性要求特别高的公司，混沌工程的价值才比较大。
小结我首先与你介绍了一些常用的部署、发布方式，包括蓝绿部署、红黑部署和灰度发布。这些方法的目的，都是为了解决频繁发布的生产模式带来的挑战。而解决这些挑战最基本的原则是，把服务上线的过程拆分为部署、发布和发布后 3 个阶段，并分别进行优化。
在部署阶段，我们要充分利用服务还没有暴露给用户的特点，尽量进行集成测试、压测、配置测试等检测；在发布的阶段，我们主要是采取灰度发布的方式并配合使用监控，在出现问题时，马上进行回滚；而在发布后阶段，则有监控、A/B 测试以及混沌工程等实践。
在我看来，快速发布模式没有给测试留下足够的时间，我们的确需要在部署上线的过程中，在提高产品质量上多下功夫。Spinnaker 这种原生支持灰度发布的工具的出现和流行，也正表明了这一趋势。在这种在生产环境上进行测试的方式，最关键的是要做好风险控制。
另外，这种模式给测试团队带来了非常大的挑战。我觉得，在不久的将来，传统测试方式会越来越不流行。测试团队需要尽快转型，来适应这种新的开发模式。
思考题你觉得金丝雀发布可以用在移动端应用或者桌面应用上吗？如果可以的话，大概要怎么实现呢？
感谢你的收听，欢迎你在评论区给我留言分享你的观点，也欢迎你把这篇文章分享给更多的朋友一起阅读。我们下期再见！

分享给需要的人，Ta购买本课程，你将得18元

生成海报并分享

赞 4

提建议

17 | 测试左移：测试如何应对新的开发模式？

19 | 不再掉队，研发流程、工程方法趋势解读和展望

 写留言

精选留言(5)

技术修行者
2019-10-02
你觉得金丝雀发布可以用在移动端应用或者桌面应用上吗？如果可以的话，大概要怎么实现呢？首先，我们目前一般都在采用红黑部署的模式，对于不重要的更新，偶尔会尝试灰度部署。灰度部署可能对于互联网类型的大流量高并发的应用更有意义，因为它们会涉及到更多的资源，灰度发布会更节省资源。我理解金丝雀发布这种方式并不会和某种应用类型绑定，之所以在Web应用中流行，是因为对于用户来说，Web类型的应用，只需要在用户端安装浏览器即可，不需要有额外的配置，所有的安装部署全部在服务器端进行，更容易控制。如果在移动端或者桌面端实施这一部署方式，需要1. 筛选种子用户，发送版本更新消息，并提供更新途径。2. 用户更新版本后，收集用户使用情况，评估新版本是否达到预期目标。3. 根据评估结果，决定是否升级版本或者回滚。种子用户的维护比较重要，一般会先从内部用户开始逐渐扩展。无论哪种类型的应用，采用金丝雀的方式进行部署，都会对监控提出更高的要求。
展开
作者回复: @日拱一卒同学，每一次的回答都很到位。先赞一个! 这里稍微补充一点。在移动端进行金丝雀发布还是比较普遍的。因为很多移动端APP。都是强依赖一个后端服务。可以比较方便的通过后端API来进行控制。如果是桌面版的程序，要实现金丝雀发布，前提也是需要有一个和后端服务沟通的渠道。这里的一个技巧，是使用功能开关来控制版本的回归，而不用要求客户重新安装旧版本。
共 2 条评论
6
文中
2020-04-14
我们通过 A/B Test 框架来实现移动端应用的金丝雀发布。具体的方式就是，A/B 的流量划分模块指引逻辑的路由，不同流量背后的实验定义完全参数化，这样就有办法通过后端的配置来控制前端行为。这种思想对于： - 待上线新功能进行内部 dog-food、线下试运营、灰度发布 - 对有特殊情况的真实用户，调整系统的业务处理逻辑 - 在并行自动化测试中，隔离其他测试用例或设置的影响 - 生产环境回归测试都可以用到。
展开
作者回复: 赞！！
25ma
2020-03-29
中午知道蓝绿红黑灰的使用场景和定义，非常受用
作者回复: 👍👍👍
1
Sam_Deep_Thinking
2019-12-08
这篇是这个专栏里的精品文章，写的很好，优秀。
lisa
2019-10-07
在生产环境下做集成测试提到了两个方法对于写用例的成本太高了，尤其是测试同学来写集成用例，因为涉及到和被测系统的联动，比如识别测试标签，识别后可能会根据测试点需要做不同的处理，感觉很难落地，facebook在这块落地上有遇到什么困难，怎么解决的，可以详细说说么？
作者回复: 我在Facebook工作的时候，Facebook没有怎么使用在生产环境下做集成测试。大家很多集成测试是在开发环境和测试环境直接做的。不过因为开发环境、测试环境和生产环境共享数据，所以集成测试跟线上环境还是很相似。这里有一个做法可以参考，对对测试数据打标签、所有业务逻辑都对测试标签进行处理。所以我觉得"识别后可能会根据测试点需要做不同的处理"这个就得这么做。

