评判云服务靠谱程度 -- Coding 安全那些事
发布在Coding 技术博客2015年10月6日view:1647
在文章任何区域双击击即可给文章添加【评注】!浮到评注点上可以查看详情。

孙宇聪:《评判云服务靠谱程度 – Coding 安全那些事》

本文依据孙宇聪在 SegmentFault D-Day 北京场的演讲内容整理。10月11日,SegmentFault 将在上海举办D-Day,围绕 Docker 主题。Coding.net WebIDE 项目负责杜万将受邀参与分享《Docker Container 磁盘容量限制》。了解更多可点击这里

云服务真的靠谱吗?

相信对这个问题每个人心里都有不同的答案。我今天想讲的是如何客观的去回答这个问题, 其中结合了 Coding 的一些实践和思考。

图片

广义范围的“靠谱” 有几个比较重要的点。

第一个点就是 Availability (可用性),24x7随时可用。一个靠谱的云服务一定是可用性非常高的。 第二点是 Access Control,可控性一定要好,非云服务你可以上个锁,云服务如何能做到可控性很好,很难。 第三点是 灾难恢复,是软件就会有问题。怎么样积极的面对这个问题,这是任何一个云厂商都要诚实面对的问题。

可用性

首先第一点我们看来讲一下可用性,可用性只有一个评判标准,就是 SLA,Service Level Agreement,更多的时候是 SLO, 只是 Objective。 一个东西是不是高可用,那么就问他几个九,敢不敢拿出来说一下。

图片

实实在在的看着这个图说话,3个9基本上是国内云服务的基础线。也就是说云服务至少要做到3个9才称为基本上可用,是合格性产品。如果是做不到这个,你的东西就只是玩具,快回去好好把技术内功修炼修炼再出来刷脸。从3个9迈向4个9,也就是99.99%的可用性,每年只有52.6分钟的时间是不可用的。 以前的谷歌搜索可用度大概是全球5个9到6个9之间,每一个小节点都是5个9不到6个9之间。想想吧,这其实是很可怕的一个概念。因为这里包含了可能发生的一切事故,不管什么不可抗力,都是扯淡。地震、洪水、台风、大楼震塌了,也是5分钟内恢复服务。 相比之下,大部分国内的IDC机房都是按照99%设计的,一年至少3天是不可用,这3天给你花在元旦一天,春节一天,国庆一天,省点时间给你机动(笑)。这里不可用就是不可用,求爷爷告奶奶也照样不能用。

所以说 SLO 直接反映一个云服务的靠谱程度:

从99%到3个9,是基本可以靠堆人和运气解决的; 从3个9到4个9,考验的是运维自动化的能力,灾备的能力; 从4个9往上基本考验的是服务基础架构、业务设计的能力。 我们也在3个9到4个9之间努力, 这个还是很有难度的。如果一个云服务厂商在注释里加了句“不可抗力排除在外”,这是非常不合适的。

那么如何提升可用性:

Design For Redundancy, 第一是一定要做到所谓的“无状态微服务”,去掉单点故障。 ……

(此处省略N多字)

阅读全文点击这里

评论
发表评论
3年前
赞了此文章!
3年前
赞了此文章!
3年前
赞了此文章!
WRITTEN BY
Coding
云端开发平台 > https://Coding.net/
TA的新浪微博
PUBLISHED IN
Coding 技术博客

Coding.net 为软件开发者提供基于云计算技术的软件开发平台,包括项目管理,代码托管,运行空间和质量控制等等。目前,Coding.net 的核心业务包括:

代码托管平台 通过代码版本控制系统 git 进行公开项目或者私有项目的源码托管。

在线运行环境 无需重复搭建配置环境,一键部署,在云端进行项目展示。

代码质量监控 通过自动化静态代码分析等管理工具,发现代码问题,获取代码度量信息,及时了解代码质量状况,保证项目管理质量。

项目管理平台 通过社会化项目协作管理平台,开发团队成员之间可自由进行信息交流、知识分享、任务管理和项目讨论,让远程协作和云端管理变得简单高效。

Coding 官方技术博客 : http://blog.coding.net/

我的收藏