【CSDN编者按】王坚院士曾讲过一句话让人印象深刻,他说「云计算的本质是服务,假如不能将计算资源规模化、大范围地进行共享,假如不能真正以服务的方式提供,就根本算不上云计算。」众所周知,阿里云是完全经历了从0到1,再到100的过程,将计算发挥到极致背后有一个 关键的服务,那就是弹性计算。
阿里云弹性计算是阿里云提供的IaaS级别云计算服务,它免去了客户采购IT硬件的前期预备,让客户像使用水、电、天然气等公共资源一样便捷、高效地使用计算资源,实现计算资源的即开即用和弹性伸缩。在「CSDN在线峰会——阿里云核心技术竞争力」上,阿里云研究员蒋林泉(花名:雁杨)深入分享了在众多大规模实践下百炼成钢的弹性计算。
复制链接可免费观看分享视频:
s://edu.csdn.net/huiyiCourse/detail/1176
演讲者|蒋林泉(雁杨),阿里云研究员
责编|唐小引
头图|CSDN下载自东方IC
出品|CSDN(ID:CSDNnews)
前言:弹性计算Morethanjust虚拟机
一般而言,大家理解的弹性计算,可能首先会想到是虚拟机、云服务器。
但弹性计算除了是众所周知的IaaS的核心——云服务器ECS之外,还是一个完整的产品家族,而不只是虚拟机。
弹性计算不仅是阿里云的大底座,更是阿里巴巴集团的大底座,能够用强大的性能、稳定性、弹性、效率能力来支撑云上客户和阿里云的云产品。目前,中国80%的创新企业都在使用我们的弹性计算产品,更有99%的阿里云其他产品是在弹性计算产品之上为客户提供服务。
对于弹性计算而言,我们所承担的角色可从三个切面去看待,即制造商、零售(运营)商和服务商:
零售商(运营商):资源池化&弹性
我们先从零售商的角度来理解弹性计算。
对于零售商而言,需要考虑如何将弹性资源卖出去,如何让客户使用这种池化后的弹性资源。
零售商主要是让用户的服务器从购买变成租赁形态,可以按照年或者月进行付费,这样更符合客户的使用习惯,阿里云也提供按使用量,甚至是通过竞价闲置资源的方式来进行付费,使得客户可以享受到在线下无法实现的付费方式来节约成本。
在弹性计算的底层提升供给链效率,进行服务器硬件资源虚拟化以及调度,并且保证非常高的SLA,来给客户提供弹性能力。
?狭义弹性:时域维度的弹性
我们先来讲讲狭义的弹性。所谓狭义弹性就是时域维度的弹性。
如下图中白色条线,这表示的就是时域的弹性,企业上线新特性、年中促销或者日常促销,甚至是业务发展变化很快,后台的计算能力却往往不能很快跟上。
一般传统企业的解决方式其实是提前备货,提前一年甚至三年做预算,进行IT资源的储备。其目标是为了保证在未来一到两年内,业务都不会因为容量不够而受损,这也是导致大量线下传统企业的日常CPU利用率无法达到5%的原因。
很糟糕的情况是,当有新业务上线需要大规模容量的时候,IT资源无法支撑,这样的矛盾就会使得上图中间的虚线部分越来越大。因此,传统方式要么就会造成浪费计算资源和资金,要么就无法很好地支撑业务的快速增长。
?ECS狭义弹性能力:天下武功,唯快不破
对于狭义弹性而言,更多需要考虑如何让其跑得更快,当需要资源的时候以很快的速度给到客户。
目前,阿里云云服务器ECS从开启服务器到SSH可以登录只需要22秒的时间,同时,单位时间内能够交付的计算力面积,可以做到单客户、单Region5分钟16万核vCPU的交付能力。
?弹性容量自动伸缩很佳实践
我们来看看一个弹性容量的很佳实践案例。
首先,企业客户需要守住自己的一个底座,也就是自己日常流量所需的计算资源,也就是下图中绿色的线,这部分比较适合使用包年包月或者RI的模式,因为价格比较便宜。
而在底座之上的弹性部分则可以使用按量计费或者抢占式的计算资源帮助消除峰值流量,再加上ESS的自动化,就能够实现在不同流量峰谷的时候可以自动包裹业务曲线。
?容量弹性:ESS弹性自动化4种模式
ESS弹性自动化提供了4种模式,即定时模式、动态模式、手动+动态模式和AI猜测模式:
通过多种伸缩模式的灵活组合,能够帮助企业快速响应计划内外的业务变化,实现按需取用,降低成本,自动智能运维,甚至是零运维。
?广义弹性:基础设施规模全预铺-空间域的弹性
第二个维度与大家分享广义弹性。云,尤其是像阿里云这么大规模的云,很大的一个特征就是基础设施规模化的全铺设,也就是说具有了空间域的弹性。
任何一个物理设备,都有扩容上限。当扩张到上限的时候,就会碰到扩容墙的问题,此时就需要设备全部迁移到另外一个地域并重新启动,无法做到跨地域调度。
云计算则能够实现跨机房、跨可用区,甚至是跨Region的扩容。阿里云拥有日不落的数据中心,业务部署到海外也是非常简单的,这就是广义的弹性——空间域的弹性。
?广义弹性:空间域上覆盖全球的大规模基础设施
大家经常会听到阿里云部署了多少个Region以及多少个AZ(AvailabilityZone,可用区),而AZ之间是互联的,延时也有严格的保障,因此用户可以突破IDC的边界,扩容自己的应用。
?广义弹性:在ECS之上,使用丰富云服务拓展应用的系统支撑能力的弹性
ECS会映射到线下的IDC服务器,因此无论是数据库还是应用,都是购买软件之后进行交付、运维和使用。对多数云上系统各种Workload,都可以基于ECS用软件自己搭建。
同时,阿里云还提供了大规模的服务化的云产品,一定会有一款满足你。比如数据库、容器、函数、中间件等都已经实现了服务化,客户不需要去安装、运维和治理这些软件,而能够利用这些软件的弹性实现开箱即用,且按时付费。而且这些软件的数量和质量还不断的进化,因此选择上云还能够为将来拓展应用能力的弹性奠定基础。
制造商:性能优异,稳如磐石
客户的应用都在这个云服务器上面,因此性能很重要。云厂商生产了各种不同规格的云服务器,通过IDC、物理机、网络资源之上的这些操作系统将其切成资源池给到客户。
这样就像是工业4.0,客户选择了配置,如内核、CPU、内存、磁盘、操作系统等,阿里云会将这些资源调度到一台机器上,实时生产出来交给用户。
阿里云提供了封装形态、规格族、规格大小粒度这样广谱覆盖的实例矩阵来覆盖用户在不同场景下对于计算力的需求。
?制造商成功的本分:稳定性&性能
中国是个制造业大国,而制造商成功的本分其实就是稳定性和性能。阿里云具有计算、网络、存储性能的稳定性,AZ内、AZ间、Region间以及网络性能的稳定性。
此外,加上飞天操作系统在计算、存储、网络3个底层技术上的不断投入,以及大规模调度系统,结合底层硬件不断进行研发迭代,实现高性能和成本红利。
?云的稳定性
云的稳定性主要挑战在两个方面:宕机迁移业务恢复,磁盘损坏不丢数据;硬件批量维修、过保,保证客户对过保无感。
阿里云将运维和虚拟化解耦,可以做到用户无感的物理硬件替换,对客户业务的连续性打搅降低到非常小的程度,这正是云上核心的稳定性逻辑。
下图中数据来自于各厂商官网,阿里云ECS单实例可用性SLA可以达到99.975%,跨可用区多实例可用性SLA可达到99.995%。
标题中的“二次去I”指的是阿里云在服务客户的过程中发现客户单实例对稳定性要求也非常高。
在“第一次去IOE”的时候,用的是应用层的分布式技术来解决x86的稳定性问题。而在弹性计算领域,则是用基础层的能力去解决x86的稳定性问题,目标是用x86的硬件做到和小型机一样的稳定性,这就是“二次去I”。客户的技术能力各不相同,有很大一部分客户对单机的稳定性有非常高的依靠,无法做应用层的容灾,这样严苛的需求就推动阿里云的服务要达到小型机的稳定性,阿里云的基础沉淀了多年,才得以实现这样的业界领先的SLA。
阿里云云盘的可靠性能够做到“9个9”,也是目前业界领先的,需要非常严谨和先进的技术架构来保障。通过分布式的基于x86的软件定义存储,替代掉原来商业非常昂贵的存储,并达到了存储的高可靠性。
阿里云是如何做到上述能力的呢?其实对于服务器而言,80%的宕机,都来自IDC电力、IDC网络和服务器系统三类原因。接下来针对于这三个原因谈谈阿里云所做的事情。
IDC掉电的新闻中经常出现,属于高频事件。阿里云在IDC的治理上非常严格,拥有高可用电力架构、网络架构以及3+N多线BGP接入,这也源于多年来的经验和教训,才形成背后成熟的治理体系和技术体系。阿里云帮助客户消除掉了IDC机房的大部分电力、网络的可用性威胁。
文章地址:https://www.tianxianmao.com/article/online/11286.html