跟Monty Taylor和Jim Blair聊OpenStack的持续集成与自动化测试

帮
助
中
心

网站公告

新闻动态

域名注册

虚拟主机

企业邮箱

数据库

云服务器

备案指南

阿里云主机ECS

首页 » 帮助中心 » 云服务器 » 阿里云主机ECS

跟Monty Taylor和Jim Blair聊OpenStack的持续集成与自动化测试

发布日期：2016-2-3 17:2:28

　　OpenStack社区有一个CI和自动化测试小组，该小组为OpenStack社区的开发者们提供服务，而该服务所用的工具正是他们自己维护的一个OpenStack云(如阿里云)环境。

　　对于这样一个囊括了十数个子项目，每月有300多位开发者提交代码的复杂项目，普通的CI系统是难以处理的。

　　我们跟该小组的负责人Monty Taylor和James Blair沟通，了解他们在构建和测试过程中所面临的挑战，以及他们是怎样解决这些挑战的。

　　InfoQ：你们的CI系统每天处理多少次提交?你预计到Icehouse版本发布时会有多少?(注：本采访完成于2013年11月，当时距离Icehouse发布还有半年)

　　Monty：印象中，我们的系统最高处理过每日400次提交。这些仅仅是通过测试的部分，实际上我们的测试量要大于这个数字，因为只有通过测试的代码才会进入CI。

　　Jim：每次提交被审查之后，我们在实施合并之前会再做一轮测试。

　　Monty：对于每个被合并的提交，我们都会对其做8-10个不同的测试任务。因为测试会在上传的时候和合并之前各做一次，相当于每次变更我们都会跑将近20个测试任务。有一段时间我们的系统一天就跑了10000个任务。

　　从Grizzly到Havana，我们的集成、测试量基本上增加了一倍。基本上每个新版本我们都会增加一倍的量，到Icehouse应该也是如此。

　　InfoQ：你们都跑哪些测试任务?

　　Jim：首先是代码风格检测。因为我们的协作开发者人数众多，因此代码风格统一是非常重要的，我们需要确保大家都使用同样的编码方式。这是个很简单的任务，但很重要。

　　然后是单元测试，仅仅测试被变更的子项目，不考虑跟其他子模块之间有网络交互的情况。我们针对几个不同的平台做测试，包括2.6、2.7和3.3，基本上我们在CentOS上跑2.6，在Ubuntu上跑2.7。

　　然后是集成测试。我们用DevStack将所有的组件安装起来，然后在安装起来的这个单节点云实例上跑不同的模板。不同的模板对不同的模块进行不同的设置，比如使用不同的数据库、不同的消息队列。可以选择的种类很多，不过基本上我们只测试那些常用的，比如MySQL、PostgreSQL、RabbitMQ这些。

　　Monty：我们最近也在考虑引入ZeroMQ的测试。

　　Jim：如果社区里认为某个子模块比较重要，使用的人也越来越多，也有更多的人愿意参与到debug工作当中，那我们也会将这个模块加入。

　　InfoQ：测试任务是由谁来写的?

　　Monty：开发者自己写。我们的QA团队很小，基本上只关注测试系统本身的工作，不会有太多精力去关注测试任务本身。所以我们要求开发者自己提供单元测试和集成测试。

　　Jim：我们最近在讨论的一个话题就是在这方面做更严格的限制，即只有写好了集成测试的变更提交才能够被接受。

　　Monty：我们总觉得未经测试的变更就是有问题的。一般来说的确是这样。

　　Jim：现在项目发展的这么快，有这么多组件，这里或那里的一个小错误可能就把整个系统搞死。

　　InfoQ：性能测试有在做吗?

　　Jim：还没有，不过我觉得可能差不多可以启动了。我听说Boris Pavlovic正在做一个叫做Rally的测试系统，Joe Gordon则在进行一些可扩展性测试的工作——跟性能测试不太一样，不过关联比较大。这都是我们希望做的事情。

　　我们的测试显然没有覆盖所有的方面，不过我们最终希望测试所有的东西，当然这需要时间。

　　在本次发布周期内，我们关注于升级测试。现在我们已经在做一些，不过做的还不够，需要做更多。

　　InfoQ：在一个实例上运行一个测试任务大概需要多久?

　　Monty：一般在20-40分钟，具体时间长短跟实例的配置有关。

　　Jim：我们花了很多精力让测试变得并行化。我们构建了一个叫做Test Repository的框架，大多数单元测试在这个框架中已经可以并行处理，测试结果出的很快。

　　Monty：还有Jim写的Zuul，这个工具可以一方面并行的测试成套的变更，同时又保持他们的测试顺序不变。

　　InfoQ：运行测试用到了多少机器?用于运行测试用例的实例配置是怎样的?

　　Monty：我们自己是没有机器的。所有的测试都跑在公有云(如阿里云)上，有些来自Rackspace，有些来自HP，都是赞助的。他们没找我们要钱，而我们需要多少就可以用多少。

　　Jim：上一个版本周期内，最高的时候我们并行跑了340个实例，一个实例就是一个VM。集成测试一般使用很基础的VM——8GB内存，系统是Ubuntu Precise。我们把这个节点搞起来，然后让DevStack在这个VM上安装OpenStack。

　　Monty：实际情况要比这个复杂，不过大概意思就是这样。我们有一个nodepool用来管理这些VM，通过缓存来预备这些机器。我们需要将DevStack需要的依赖等东西都预先下载到本地，这样测试本身就可以离线运转。

　　Jim：测试跑完之后，我们再销毁这些VM。实际创建的VM数量要比跑成功的测试数量多，因为Zuul的随机机制，有些时候它的测试跑到一半的时候才发现还需要一些其他东西，于是测试跑不下去了，我们会干掉这个VM，起一个新的。一个大致的比例是，如果一天跑10000个任务，那么启动的VM数量差不多在100000的量级。

　　InfoQ：可以认为用于OpenStack的Zuul模式是nvie git分支模式的一个改进吗?感觉Zuul似乎不适合分支过多的情况。

　　Monty：实际上我们是不采用nvie git分支模式的，因为我们用了Gerrit，所以我们的代码提交模式跟Linux内核的模式更像：人们在邮件里交换补丁。我们的做法不是建立很多的分支然后做合并，而是让每一个变更形成一个虚拟的私有分支。相对于将每一次变更生成一个新的commit并增添至分支的顶端的做法，我们的做法是：在之前的一次修改之上再进行修改。我们的测试针对每一个独立的commit，而不是针对一个分支。

　　每一个开发者可以建立本地的分支，这些分支是私有的，没有什么发布机制。我并不知道Jim的笔记本上的分支是什么样的。我自己用git的方式比较奇葩，我不用分支，而是每次在我的master上重置ref——这是个非主流的用法，git新手最好还是不要这么尝试。

　　所以，OpenStack的git补丁流程其实是基于Gerrit的。

　　Jim：另外，我们需要确保审查人员审查的对象是每一个commit(而不是分支)。理想状态下，每一个进入项目的commit都被人仔细的检查过。分支的话就会比较混乱。把每一个commit把关好，把好的commit合并，是比较精细的做法。

　　InfoQ：除了Zuul之外，你还提到了在Jenkins上使用Gearman来提高可扩展性，使用Logstash做debug，还有你上面提到的Test Repository将测试输出自动发给committer。目前的反馈机制是如何运转的?理想的情况是怎样的?

　　Monty：反馈机制整体来说是越来越好的。你的问题涉及到几个方面。有关用Gearman来提高Jenkins的可扩展性这一点，首先Jenkins本身的设计是针对一个master的情况，让它支持多个节点是通过hack的方式来完成的。我们一开始的用法是跑一个Jenkins master和若干个slave，并行跑的测试任务数量要比正常的Jenkins用法要多很多。Jenkins在设计当中涉及到很多全局锁，所以要像我们这样用起来，会遇到很多可扩展性的问题。

　　Jim：因为Jenkins在设计的时候根本没考虑过我们这样的用法。

　　Monty：所以我们就写了Gearman插件，这个插件的作用是让Jenkins将所有任务注册为潜在的Gearman任务，标记在Gearman服务器上。这样一来我们就可以针对一组测试任务建立多个Jenkins master，让Gearman来做任务分发，如果一个Jenkins master开始遇到瓶颈，我们就让Gearman把任务分发到下一个Jenkins master上。

　　Jim：一般来说，一个Jenkins master带100个slave之后就会遇到问题。我们要同时跑340个任务，那就需要3.4个Jenkins master来处理。

　　Monty：Logstash集群是个很有意思的东西。每一次DevStack安装的是整个的云环境，然后针对这个小环境跑测试。仅仅是安装的过程就会制造很多日志，包括Nova、Glance等等。如果遇到问题，开发者根本无从下手去debug，能够依赖的只有日志。所以，我们把所有的日志丢到一个很大的Logstash集群当中，这个集群通过elastic search的方式给所有的log建索引。这样，开发者就可以进去查看日志，了解到底发生了什么问题。这里面的Elastic Recheck是Joe Gordon、Sean Dague和Clark Boylan写的。

　　Joe：那个图表功能是我写的。

　　Monty：比如我们发现有一个任务导致测试跑失败了，我们会在LogStash上运行脚本，来检测这是否是我们之前见到过的错误类型。如果有匹配，我们会在邮件通知里将之前的bug报告附上，这样会帮助开发者更快的定位问题。

　　Jim：这其实是很酷，也很独特的。世界上像这种规模的项目是很少的，这种规模的测试、这种规模的日志，开发者很少能够在其他项目获取到。云平台这样的项目，开发者在自己的机器上是很难去发现代码可能会引起的问题的，因为很多问题都是要跑很多次不同的测试才能抓到——而我们的测试平台可以做到这一点!下一个发布周期内，我们会尝试让问题识别变得更加自动化，将变更和行为的特征更多的抽取出来，帮助开发者更快的定位问题。

　　InfoQ：你们做的这一大堆自动化测试的工作，感觉最难的地方是在哪里?

　　Monty：开发者很多，代码很多，测试需求量每6个月都会增长一倍。面对commit数量如此众多、快速增长的情况，我们需要提前预见到可能发生的问题，做好准备——因为如果真的遇到了问题，那么那个时候再去开发系统来解决问题就来不及了。自动化解决的问题不是今天的问题，而是三个月之后的问题。

　　正因为所有的测试都在我们这里，我们就必须确保这个系统一直能够正常运转。你的测试一天跑10000次，万一系统出了问题，给开发者发邮件说你的代码有错(而实际上根本不是他们代码出了错，是系统本身出了错)，那就会很糟糕。误报比不报更糟糕，所以自动化必须做的非常靠谱。

　　还有就是，我们总是会遇到网络中断的问题——基本上我们有一半的时间都用来处理这个问题。所有的网站都会连不上：平时你自己去刷网页是感觉不到的，但如果你一天跑10000次自动化测试呢?如果Github平均有1%的时间是不可用的，你作为用户去刷页面没打开，重试一次就好;而我的测试系统每天从Github做10000次抓取，1%的不可用就相当于100次失败。

　　由于我们在跑的这个系统，我们也成了RackSpace和HP云的性能监控器。很多时候我们发现有一个问题，就去问他们的运维：“你们这个数据中心是不是网络出问题了?”然后他们会说：“对啊!我们也刚刚发现!”

　　Jim：Rackspace和HP云都是基于OpenStack的系统，所以我们的测试系统是在OpenStack上运行、为OpenStack做测试。用自己测试自己的代码，同时又测试自己的运行状态，这是个很酷的事情。

　　受访者简介

　　Monty Taylor是HP杰出工程师，OpenStack技术委员会成员、OpenStack基金会个人董事。他带领OpenStack基础架构项目、Ironic项目和TrippleO项目。

　　Jim Blair现在是OpenStack基础软件组的核心开发

上一条: 初识虚拟化技术

下一条: 从自建机房到云计算的演进之路

相关问题		热门问题
Docker在云容器技术领衔 Flocker 0.3.1 新特性 Apache Flume 1.5.2 发布发展中的 Docker 技术 OpenStack私有云DR的益处 Seafile 3.1.11 发布 Docker1.3改动简介 Seafile Client 3.1.10 发... 语音输入四强争霸 Apache Libcloud 0.16.0 ...		Windows Server 2012 防火墙... Linux下l2tp客户端xl2tpd安装配置... 阿里云ECS关于跨服务器快照/镜像的使用说明 Linux系统下测试UDP端口是否正常监听的办... 阿里云ECS通过安全组屏蔽/拦截/阻断特定IP... 如何解决ECS Windows提示显示设置无法... 如何解决ECS服务器误开启了防火墙导致远程连接... 阿里云数据库安全阿里云ECS通过安全组实现将不同账号同地域云服... ECS云服务器的自定义镜像FAQ

新手上路		支付方式	快速通道		服务与支持
域名常见问题	主机常见问题	在线支付	域名信息查询	备案信息查询	帮助中心
邮箱常见问题	云服务器问题	线下汇款	域名控制面板	主机控制面板	网络违法举报
数据库问题	备案问题		万网代备案系统		互联网不良信息举报

业务QQ： 11611616 673768899 673768855		联系电话： 023-61066666 66887777 89082222
离线联系： 13452888882 13452888883 13452888886		备案专线： 023-60887777 备案专员QQ：673768866
联系地址：重庆市九龙坡区石桥铺一城精英国际40层17号 Copyright © 重庆典名科技有限公司 023dns.com All Rights Reserved