知乎容器化构建系统：从0到1支撑日近万次构建部署

Amyyyyy 2019-02-01 12:04:00

知乎应用平台团队基于Jenkins Pipeline和Docker打造了一套持续集成系统。Jenkins Master和Slave基于Docker部署，每次构建也是在容器中进行。目前有三千个Jenkins Job，支撑着整个团队每日近万次的构建和部署量。

整个系统的设计目标是具备以下的能力：

较低的应用接入成本，较高的定制能力：写一个构建系统配置文件成本要尽可能简单方便，或者可以通过模板一键创建，但又要能满足应用的各种定制化的需求。
具备语言开放性和部署多样性：平台需要能支撑业务技术选型上的多语言，同时，要能满足应用不同的部署类型，如单纯的打包发布，或者进一步部署到物理机、容器、离线任务平台等。
构建快和稳定，复现问题成本低：每次构建都在干净的容器中，减少非应用本身问题带来的构建异常。同时，如果构建出现问题，在权限控制的前提下，要能方便开发者自己调试和排查。
推动业界标准以及最佳实践，同时在代码合并之前就能更好把控住质量。
整个集群高可用，可扩展，以及具备较低的运维成本。

一、背景

知乎选用Jenkins作为构建方案，因其强大和灵活，且有非常丰富的插件可供使用和扩展。

早期，应用数量较少时，每个开发者都手动创建并维护着几个Job，各自编写Jenkins Job的配置，以及手动触发构建。随着服务化以及业务类型，开发者以及Jenkins Job数量的增加，我们面临了以下的问题：

每个开发者都需要去理解Jenkins的基本配置和触发逻辑，使得配置创建和维护成本高。
构建在物理机上进行，每个应用可能有着不同的版本依赖，构建时会遇到版本冲突，甚至上线之后发现行为不一致导致故障等。
构建一旦失败，需要开发者能登录Jenkins Slave所在的物理机进行调试，权限控制成为了一个问题。

于是，一个能方便应用接入构建部署的系统，成为了必须。

二、完整的生命周期

知乎的构建工作流主要是以下两种场景：

只有Master分支的代码可以用于线上部署，但支持指定任意的分支进行构建。
所有对Master分支的修改必须通过Merge Request来进行。为了避免潜在代码冲突导致测试结果不准的情况，对Merge Request上的代码进行构建前，会模拟跟Master分支的代码做一次合并。

一个Commit从提交到最后部署，会经历以下的环节：

开发者提交代码到GitLab。
GitLab通过Webhook通知到ZAE（Zhihu App Engine，知乎的私有云平台）。
ZAE将构建的上下文信息，如GitLab仓库ID，ZAE应用信息给到构建系统Lavie。目前只处理用户提交MR以及合并到Master分支的事件。
构建系统Lavie读取应用仓库中的配置文件后生成配置，触发一个构建。在构建过程中获取动态生成的Jenkinsfile，生成Dockerfile构建出应用的镜像，并跑起容器，在容器中执行构建，测试等应用指定的步骤。
测试成功之后，分别往物理机部署平台，容器部署平台，离线任务平台上传Artifact，注册待发布版本的信息，并Slack通知用户结果。
构建结束，用户在ZAE上可以进行后续操作，如选择一个候选版本进行部署。

每个应用的拉取代码，准备数据库，处理测试覆盖率，发送消息，候选版本的注册等通用的部分，都会由构建系统统一处理，而接入构建系统的应用，只需要在代码仓库中包含一个约定格式的配置文件。

三、达到的目标以及中间遇到的问题

1、低接入成本，高定制能力

构建系统去理解应用要做的事情靠的是约定格式的yaml配置文件，而我们希望这个配置文件能足够简单，声明上必要的部分，如环境、构建、测试步骤就能开始构建。

同时，也要有能力提供更多的定制功能让应用可以使用，如选择系统依赖和版本，缓存的路径，是否需要构建系统提供MySQL以及需要的MySQL版本等，以及可以根据应用的类别自动生成配置文件。

一个最简单的应用场景：

base_image: python2/jessie

build:

- buildout

test:

unittest:

- bin/test --cover-package=pin --with-xunit --with-coverage --cover-xml

一个更多定制化的场景：

base_image: py_node/jessie

deps:

- libffi-dev

build:

- buildout

- cd admin && npm install && gulp

test:

deps:

- mysql:5.7

unittest:

- bin/test --cover-package=lived,liveweb --with-xunit --with-coverage

coverage_test:

report_fpath: coverage.xml

post_build:

scripts:

- /bin/bash scripts/release_sentry.sh

artifacts:

targets:

- docker

- tarball

cache:

directories:

- admin/static/components

- admin/node_modules

为了尽可能满足多样化的业务场景，我们主要将配置文件分为三部分：声明环境和依赖、构建相关核心环节、声明Artifact类型。

声明环境和依赖：

image，基础镜像，需要指明已提前准备好的语言镜像。
deps，dependencies的简写，声明使用的系统依赖以及对应的版本。

构建相关核心环节：

build，构建的步骤，如buildout、npm install、或者执行一个脚本。
test，测试环节，应用需要声明构建的步骤，也可以在这里定制使用的MySQL以及对应的版本。构建系统会每次为其创建新的数据库，将关键信息export为环境变量。
post build，最后一个环节，如发包、发Slack、邮件通知、或发布一个Sentry release等。

声明Artifact类型：

artifact，用于选择部署的类型，目前支持的有：