如何设计一个牛掰的大型项目架构？

吴昊 2017-05-04 10:29:48

本文转自【Qunar技术沙龙】，经作者和平台同意授权转载。

大型电商项目的服务端架构

我们以淘宝架构为例，了解下大型电商项目的服务端架构是怎样的，如图所示：

上面是一些安全体系系统，如数据安全体系、应用安全体系、前端安全体系等。
中间是业务运营服务系统，如会员服务、商品服务、店铺服务、交易服务等。
还有共享业务，如分布式数据层、数据分析服务、配置服务、数据搜索服务等。
最下面是中间件服务，如MQS即队列服务，OCS即缓存服务等。

图中也有一些看不到，例如高可用的体现、实现双机房容灾和异地机房单元化部署，为淘宝业务提供稳定、高效和易于维护的基础架构支撑。

这是一个含金量非常高的架构，也是一个非常复杂而庞大的架构。当然这个架构不是一天两天演进而成，也不是一上来就设计并开发成这么高大上的。

这边我想说的是，小型公司要怎么做架构呢？对很多创业公司而言，很难在初期就预估到流量十倍、百倍以及千倍以后的网站架构会是一个怎样的状况。同时，如果系统初期就设计一个千万级并发的流量架构，也很难有公司可以支撑这个成本。

因此，一个大型服务系统都是从一步一步走过来的，在每个阶段，找到对应该阶段网站架构所面临的问题，然后在不断解决这些问题，在这个过程中整个架构会一直演进。

一、单服务器-俗称all in one

从一个小网站说起。一台服务器也就足够了。文件服务器，数据库，还有应用都部署在一台机器，俗称ALL IN ONE。

随着我们用户越来越多，访问越来越大，硬盘、CPU、内存等都开始吃紧，一台服务器已经满足不了。这时看到下一步演进。

二、数据服务与应用服务分离

我们将数据服务和应用服务分离，给应用服务器配置更好的CPU和内存，给数据服务器配置更好更大的硬盘。

分离之后提高一定的可用性，例如Files Server挂了，我们还是可以操作应用和数据库等。

随着访问QPS越来越高，降低接口访问时间，提高服务性能和并发，成为了我们下一个目标，同时发现有很多业务数据不需要每次都从数据库获取。

三、使用缓存

包括本地缓存、远程缓存、远程分布式缓存。

因为 80% 的业务访问都集中在 20% 的数据上，也就是我们经常说的28法则。如果能将这部分数据缓存下来，性能一下子就上来了。而缓存又分为两种：本地缓存和远程缓存缓存，以及远程分布式缓存，我们这里面的远程缓存图上画的是分布式的缓存集群(Cluster)。

思考的点

具有哪种业务特点数据使用缓存？
具有哪种业务特点的数据使用本地缓存？
具有哪种务特点的数据使用远程缓存？
分布式缓存在扩容时会碰到什么问题？如何解决？分布式缓存的算法都有哪几种？各有什么优缺点？

这个时候随着访问QPS的提高，服务器的处理能力会成为瓶颈。虽然可以通过购买更强大的硬件解决，但总会有上限，而且这个到后期成本就是指数级增长了，这时，我们需要服务器的集群来横向扩展，所以就必须加个新东西：负载均衡调度服务器。

四、使用负载均衡，进行服务器集群

增加了负载均衡、服务器集群之后，我们可以横向扩展服务器，解决了服务器处理能力的瓶颈。

思考的点

负载均衡的调度策略都有哪些？
各有什么优缺点？
各适合什么场景？

打个比方，我们有轮询、权重、地址散列，地址散列又分为原ip地址散列hash、目标ip地址散列hash，最少连接，加权最少连接，还有继续升级的很多种策略......我们都来分析一下。

典型负载均衡策略分析

轮询：优点-实现简单，缺点-不考虑每台服务器处理能力
权重：优点-考虑了服务器处理能力的不同
地址散列：优点-能实现同一个用户访问同一个服务器
最少连接：优点-使集群中各个服务器负载更加均匀
加权最少连接：在最少连接的基础上，为每台服务器加上权值。算法为(活动连接数*256+非活动连接数)/权重，计算出来的值小的服务器优先被选择。

继续引出问题的场景

我们登录时登录了A服务器，session信息存储到A服务器上了，假设我们使用的负载均衡策略是ip hash，那么登录信息还可以从A服务器上访问，但这个有可能造成某些服务器压力过大，某些服务器又没有什么压力，这时压力过大的机器(包括网卡带宽)有可能成为瓶颈，并且请求不够分散。

这时候我们使用轮询或者最小连接负载均衡策略，就导致了第一次访问A服务器，第二次可能访问到B服务器，这时存储在A服务器上的session信息在B服务器上读取不到。

Session管理-Session Sticky粘滞会话

打个比方，如果我们每次吃饭都要保证用的是自己的碗筷，只要我们在一家饭店里存着自己的碗筷，并且每次去这家饭店吃饭就好了。

对于同一个连接中的数据包，负载均衡会将其转发至后端固定的服务器进行处理。

解决了我们session共享的问题，但是它有什么缺点呢？

一台服务器运行的服务挂掉，或者重启，上面的 session 都没了。
负载均衡器成了有状态的机器，为以后实现容灾造成了羁绊。

Session管理-Session 复制

就像我们在所有的饭店里都存一份自己的碗筷。这样随意去哪一家饭店吃饭都OK，不适合做大规模集群，适合机器不多的情况。

解决了我们session共享的问题，但是它有什么缺点呢？

应用服务器间带宽问题，因为需要不断同步session数据。
大量用户在线时，服务器占用内存过多。

Session管理-基于Cookie

打个比方，就是我们每次去饭店吃饭，都带着自己的碗筷去。

解决了我们session共享的问题，但是它有什么缺点呢？

cookie 的长度限制。
cookie存于浏览器，安全性是一个问题。

Session管理-Session 服务器

打个比方，就是我们的碗筷都存在了一个庞大的橱柜里，我们去任何一家饭店吃饭，都可以从橱柜中拿到属于我们自己的碗筷。

解决了我们session共享的问题，这种方案需要思考哪些问题呢？

保证 session 服务器的可用性，session服务器单点如何解决？
我们在写应用时需要做调整存储session的业务逻辑。

打个比方，为了提高session server的可用性，我们可以继续给session server做集群。

五、中间总结

所以网站架构在遇到某些指标瓶颈、演进的过程中，都有哪些解决方案？它们都有什么优缺点？业务功能上如何取舍？如何做出选择？这个过程才是最重要的。

在解决了横向扩展应用服务器之后，我们继续回到目前的架构图：

数据库的读及写操作都还需要经过数据库。当用户量达到一定量，数据库将会成为瓶颈。又该如何解决呢？

六、数据库读写分离

使用数据库提供的热备功能，将所有的读操作引入slave 服务器，因为数据库的读写分离了，所以我们的应用程序也得做出相应的变化。我们实现了一个数据访问模块(图中的data access module)，使上层写代码的人不知道读写分离的存在。这样多数据源读写分离就对业务代码没有了侵入。同时这里引出了代码层次的演变。

思考的点