宏观层面来看,国外以AWS为标杆的公有云服务已经风声水起,越来越多的公司享受到公有云带来的稳定和便捷;国内云计算行业刚刚兴起,以阿里云、腾讯云为代表的公有云公司也正分别以电商、游戏等切入点攻城略地,市场份额逐步增长,混合云就是在这样一个大背景下萌芽成长起来的。
越来越多的朋友从概念知道云计算是一个好东西,但真正信任且业务已经完全部署在公有云的朋友还是少数,况且运维圈一直相对保守,已有基础设施可以满足要求的情况下一般不愿意做变更。这样的情况下,混合云成为了用户从物理机托管向公有云的过渡的重要引导角色。
混合云的用户使用场景
以腾讯云为例,我们2015年2月份开始提供以私有网络为基础,以VPN、专线互联的混合云解决方案后,已经帮助大众点评、饿了么、webank等客户搭建起数百条VPN、专线连接建立混合云,那这部分用户的真实的诉求是什么呢,我们可以从下面几个案例来看。
第一类,通过混合云应对业务的爆发式增长。大家都知道大多数互联网业务呈指数型增长,很难预测基础设施的储备量。一般在业务成长初期很长一段时间内,小规模的物理机托管可以满足用户需求。但随着市场推广活动展开,业务规模爆发增长,原物理托管机房可部署机位有限,只能选择公有云作为弹性手段,快速部署业务,满足用户需求。
Figure 1爆发型增长的互联网业务
此类用户需求一般对交付时间十分敏感,多数通过IPsec VPN快速建立连接顶住流量,专线到位后再切换专线提供可靠的混合云连接。
此类用户核心痛点:
1.业务爆发式增长,通过公有云弹性解决徒增流量
2.存量数据中心利旧,降低运行成本(买好的服务器暂时先用)
Figure 2Web层部署在公有云的混合云架构
对于此类用户,在充分感知公有云的稳定和成本降低后,大部分会在原有物理机托管服务到期后全量搬迁公有云,混合云在部署过程中只是起到过渡的作用。
第二类,通过公有云实现多地容灾的高可用架构部署。与第一类用户不同,此类用户已经具有很大规模,在运营商机房中运行大量服务器。他们的核心问题不再是担心基础设施部署速度无法满足业务增长,更多的是从稳定性、可靠性等寻求从单中心向多中心化发展,通过消灭单点,解决单数据中心故障带来的业务风险。
根据业务可靠性要求不同,一般多地容灾常见的采用方式有同城容灾、异地双活、两地三中心等。按照传统建设模式,用户只能重新选址并租赁数据中心,发起服务器、网络设备采购,部署网络环境等,中间涉及到一系列的商务沟通、基础设施建设等操作,周期从6个月到1年不等。而在公有云蓬勃发展的今天,他们可以不必担心此类问题,直接注册个账号,购买服务器,拉个专线,基础架构就搞定了。这个过程除专线建设周期较长,在公有云服务商注册账号、够买服务器等可以在1天内完全搞定(特大量部署需要公有云服务商额外采购除外)。
Figure 3异地双活的容灾备份架构
以上图为例,本地数据中心(50%)和公有云(50%)异地部署,数据库通过专线或VPN进行主从互备,单中心失效,通过dns将流量切换至有效中心,提供有损但不中断的基础业务服务;当然对于金融等高可靠、高要求可以可以通过两地(100%)方式实现无损的容灾服务。
此类用户的核心痛点为:
1.多地容灾,提高基础设施可靠性
2.快速部署,减少基础设施建设周期
3.存量数据中心利旧,降低运行成本(买好的服务器暂时先用)
第三类,监管要求下的混合云部署。此类用户大多为银行、金融、保险等行业,需要监管合规。一般普通公有云服务基础设施较难满足金融合规的要求,因而此类业务倾向于将系统的web层、业务行情、企业OA等放在公有云,快速部署,交易、流水等核心问题放在合规机房内。
此类用户的核心痛点是:
1.金融监管、合规的需求
2.公有云的弹性和易用性需要
总结以上三个场景,当前国内环境的混合云部署主要解决以下几个问题:
1.私有云向公有云的过渡方案
2.已有IT资源利旧使用,平衡Capax和Opex
3.应对业务突发性增长,快速扩张基础设施规模
4.多地容灾,提高业务可靠性
5.行业合规下的公有云诉求
混合云的关键技术点
说完目前混合云的用户使用场景,这里我们说一下部署混合云的关键技术节点。从这一年来和客户的沟通中发现,大部分用户在建设混合云过程中会从网络连接、安全、监控、系统兼容几个点,我们分别讨论一下。
第一点,公有云上自定义网络的能力。这里自定义网络泛指私有网络(VPC)一类,可以用户自定义逻辑隔离的专用网络的能力,包括用户可以自行划分子网、配置路由,设置公网、VPN网关等基础能力。
一般非自定义网络的主机内网IP是在大系统(比如10.0.0.0/8)下随机分配的,经常会和用户本地数据中心的IP冲突,这样只能在连接过程中通过nat方式解决,但公有云的资源经常会弹性伸缩,每次添加主机会重新随机分配IP,这样就不得不需要人工维护nat规则,运维负担很重。
有了VPC就不会出现这个问题。用户在创建VPC前提前做好网络规划,将本地数据中心和VPC的IP段划分开(比如VPC是10.0.0.0/16,本地数据是10.1.0.0/16),这样用户在公有云的计算资源都会在VPC内添加,即使IP随机分配也是在VPC可控的IP段内随机分配,IP不会冲突,因而也就不需要额外配置和维护nat规则了。
腾讯云的私有网络是今年2月份灰度上线的,采用gre封装的方式进行网络虚拟化。系统采用NFV(Network function virtualization)的设计思路进行设计,使用多个普通的x86设备实现分布式的网络虚拟化集群,全过程无单点,系统随负载可实现自动扩缩容。从2月份到现在,经过近一年的打磨,系统稳定性已经逐步收敛,并得到了客户的认可,称为腾讯云混合云战略的中坚力量。
第二点,多样、稳定的网络接入能力。混合云最突出的特点就是连接,连接方式主要分为两种:公网接入和专线接入。
为保护用户的信息安全,公网接入在Internet上的流量需要经过IPsecVPN加密,一般小型VPN网关(200Mbps以下)可以通过虚拟软件VPN网关实现,中到大型VPN网关(300Mbps及以上)可通过硬件VPN网关设备实现。公网VPN接入速度很快,一般半天即可完成部署使用,可以快速满足客户需求。鉴于国内网络环境复杂,部分网络拓扑拥塞会导致网络延迟、丢包率增加,不建议企业采用大于200MbpsVPN接入;但也有异常情况,比如用户数据中心侧不满足拉专线的条件,只能勉强用大容量VPN提供服务。
专线接入则在全时段全方位的保障了用户数据加密和可用带宽,用户无需担心容量太大无法承载的问题。但专线接入也存在一些问题用户需要仔细考虑:
1.专线接入时间周期较长,一般需要1个月(资源充足)或以上的时间建设、部署;
2.专线价格较高,是BGP带宽的3~5倍(专线带宽越高,单位成本相对较低);
3.国内运营商为各省独立运营结算,专线的商务流程、定价、施工时间、SLA等存在差异;
4.专线施工过程中有各种琐碎问题需要解决(比如物业、管道、资源不足),占用精力很多。
确定需要通过专线建立混合云的,建议早规划,早建设,防止因为网络原因导致业务部署延期。
当然,还有一个需要注意的点,双线热备。系统需要从底层架构上消除单点故障的风险,在用户需要的情况下提供双线接入的能力。
腾讯云在接入这块由于用户需求较多,已经具有了很丰富的运营经验。公网VPN接入方面,具有产品化的VPN网关可供使用。VPN网关采用虚拟软件方式实现,具有主备双机热备能力,但网挂fail可以在5s内切换至备用网关,而不影响通道流量传输。同时VPN网关可以在控制台进行可视化的IKE、IPsec参数配置,部署快速,门槛低。专线方面,腾讯云则和运营商伙伴一起,为您提供了一站式专线接入服务,您无需再处理专线建设过程中复杂的流程和琐碎的问题,只需告诉我们本地数据中心的详细地址,就可以在最快17个工作日内完成带宽2Mbps~10Gbps的功能支持双线热备的专线接入网络。
第三点,安全与监控。混合云在网络层面上将私有云和公有云进行了连接,如果发生网络故障或者攻击,服务商需要有能力保障网络间故障不会相互影响,将攻击或者故障限制在一定范围之内。
内网安全方面需要具有灵活、易配置的网络访问控制能力。腾讯云的方案在传输层提供了有状态的基于单主机的网络访问控制(安全组),在网络层提供了无状态的基于VPC子网的网络访问控制(网络ACL)。
监控更多需要体现业务管理的闭环,通过展示网络连接的实时流量、延时、丢包数据,用户可以针对数据做告警策略反馈异常,这块腾讯云对专线、VPN的流量都提供了类似服务。
第四点,完善的API管理支持。规模化的混合云部署后,用户可以通过API的方式,在原有本地数据中心的运维管理系统基础上,快速搭建兼容公有云的运维管理系统。这块公有云厂商只需要提供原子化的API即可,方便用户利用这些模块搭建弹性扩缩容系统、制定网络备份方案等。这块我们有些客户的例子可以和大家分享一下:
比如,弹性扩容的逻辑就是,一旦负载均衡后的主机满足以下几个条件之一:网络负载超过80%or CPU负载超过80% or内存使用超过 80%,则通过快照创建新主机绑定到负载均衡上。主机监控、快照、负载均衡的API组合即可完成此功能。
再比一些客户感觉专线太贵了,用VPN作为专线的备份流量。用户只需要通过专线流量监控API拉取网络流量,制定触发策略(比如流量突降50%),当专线告警触发时自动通过更换子网关联路由表,将内网路由切换至VPN网关上。这样通过使用按流量计费的VPN网关,用户就可以实现低成本的专线接入备份。
好,总结一下。混合云的搭建需要IAAS服务商具有以下几个能力:
1.可靠的私有网络(VPC)
2.多样、稳定的网络连接(VPN、专线)
3.提供完善的安全和监控能力
4.全面的API支持
混合云的未来
最后稍微谈一下混合云的未来。如前面所说,目前客户中大部分使用混合云只是“短暂的”,可以毫不夸张的说,这样的混合云是用户从私有云或者物理机托管向公有云搬迁的过渡过程。随着客户对公有云的易用性、可靠性和成本降低有了实际认知,大部分互联网和非合规性要求的客户都可以搬迁到公有云上,需要多地容灾的客户也可以通过公有云本身的多地域、多可用区完成跨地域、跨可用区的容灾部署。
那混合云这样的使用场景会消失么?
我个人观点来看是不会的,这里主要考虑以下几个因素:
第一,市场细分。公有云提供的是同质类服务,无法满足特殊业务的细分需求。比如银行系统的大型机,只能放在自己的数据中心或第三方物理托管机构,IAAS服务商长期来看不会在这方面长期投入(短期为了圈市场可能会提供);
第二,信息保密。企业信息存在分级的保密要求,高等级保密信息放在私有云的需求长期存在,非保密要求将放在公有云组建混合云;
第三,行业合规。长期来看行业监管的迭代时间和技术迭代时间不在一个量级,而互联网金融行业兴起,需求会逐渐扩张;
第四,应用响应时间。因响应时间敏感而部署私有云的用户将长期存在(网络延时无法克服),响应时间要求低的业务将放在公有云,同时组建混合云。
CIO之家 www.ciozj.com 公众号:imciow