腾讯如何建设微模块数据中心
张广彬 e-works

    腾讯的第一代数据中心采用传统的电信解决方案,数据中心PUE差不多在1.6左右;第二代数据中心以天津滨海(一期)为代表,开启了腾讯超大规模数据中心的建设历程,采用水侧自然冷却技术,PUE降到1.4;2012年,腾讯进一步创新,自行研发了第三代的数据中心技术——TMDC。

 

    腾讯的数据中心至少发展了三代。

 

    据腾讯IDC平台部高级总监杨晓伟介绍,腾讯的第一代数据中心采用传统的电信解决方案,数据中心PUE差不多在1.6左右;第二代数据中心以天津滨海(一期)为代表,开启了腾讯超大规模数据中心的建设历程,采用水侧自然冷却技术,PUE降到1.4;2012年,腾讯进一步创新,自行研发了第三代的数据中心技术——TMDC。

 

    TMDC即腾讯模块化数据中心(Tencent Modular Data Center),指完全按照模块化设计思路搭建的可快速部署的数据中心模型,数据中心内部由多个完全相同的微模块(Micro Module)组成;微模块则是以若干机架为基本单位,包含制冷模块、供配电模块及网络、布线、监控在内的独立的运行单元,全部组件可在工厂预制,并可灵活拆卸,快速组装。

 

    换句话说,微模块数据中心就是IT设施(服务器、网络、存储、机架)加上部分基础设施,如高压直流UPS、末端精密空调、末端配电等,是一个对外部有部分依赖的微型数据中心。工信部2013年11月中对腾讯宝安数据中心的实测表明,TMDC 2.0内部(不含外部空调系统如水的损耗,市电+高压直流)的PUE达到1.066,要注意这不能代表整个数据中心的PUE水平。

 

    微模块的关键是产品化、模块化,把数据中心里偏IT的部分打包成一个标准化的产品,从“风火水电”等数据中心基础设施中独立出来,主要组件如行间空调、直流电源、电池等,都是普通的标准化产品,商业化程度高,方便灵活配置,随时减配或增配,还支持在线扩容。如果说集装箱数据中心的应用场景优势在室外,那么微模块主要是解决数据中心内部的快速部署。微模块在结构上与集装箱数据中心最大的区别是可拆卸,能够适应国内大多数厂房的条件,对建筑基本没有特殊要求,而且方便拼装、改造、搬运。每一个微模块可以看作一个微型的数据中心,可以相对独立运行,具备自愈的能力。

 

    产品化和模块化意味着去工程化,TMDC实际上把原来数据中心工程建设中机房精装修、高架地板、回风天花板、列头柜、配电柜、空调、消防、监控、现场测试验证等工作全部集成在微模块这样一个产品里,以前的大部分现场工程都可以在工厂预制完成,现场组装所需人力和时间都大为缩短。

腾讯天津数据中心 
腾讯天津数据中心 
腾讯天津数据中心 

腾讯天津数据中心3号楼一层和楼顶的管道,这是典型的工程,很难模块化。整个天津数据中心有上千个阀门,清楚的了解上千个阀门的具体位置,也成为天津运营团队的工作难点之一(来源:腾讯提供)

 

    这样还实现了数据中心IT建设与土建的解耦,不用等待机房工艺条件明确再做建筑设计。因此,腾讯拿到一块地之后,可以先以最简单的厂房形式报建,把楼先盖起来,也不用考虑分割机房,可以是一个大开间。厂房盖起来,把一些基础的水电配套管路做好,再把柴发、冷机等基础设施装好,整个土建部分就完成了。IT部分完全根据需求去下单定制,即土建部分先行,虚位以待微模块,从而可以免受机房建设进度的影响。譬如前面提到的上海青浦数据中心,是腾讯首次对外采用与运营商合建数据中心的模式:腾讯负责土建建设、电信负责工艺建设,土建与工艺解耦、同步展开,将项目建设工期从30个月减少到24个月,节省了半年的时间。

 

    微模块的灵活性和效率也是腾讯看重的优势。传统数据中心设计时不知道机器的布局,采取就高不就低的原则,每一个机架都得按照高功耗的需求(供电、制冷)设计,可能造成数据中心设计容量远超实际使用的容量,造成很大的浪费;投产之后,可能会出现高功耗和低功耗的机柜混杂在一起的情况,也会产生一些局部的热点。TMDC把制冷系统从整个机房离散到微模块里,可以自行配制高低功耗类型,设计不同功耗等级的微模块;或者把所有微模块的功耗密度都设计成一样的,不用去区分高功耗模块和低功耗模块。微模块内部可以同时有高功耗和低功耗的服务器,因为微模块内部的制冷空间非常小,行间制冷的优势得以体现,可以在一个小空间里形成一个相对均衡的静压箱。

天津滨海数据中心 

天津滨海数据中心3号楼里的腾讯微模块(TMDC),可以看到近处的这两个都使用了整机柜(共8个)。TMDC采用冷通道密闭的方式,便于发挥行间制冷的优势,对南方炎热潮湿的气候和非自建数据中心的适应性较好(来源:腾讯提供)

 

    从数据中心运营的角度来看,微模块的颗粒度比数据中心小,又比服务器乃至整机柜大,作为标准化的资源居于二者之间,便于全局调度。以微模块作为一个资源运作单位,可以整体上架、整体改造(如服务器机型发生变化)、整体退役,并且方便搬迁,不受服务器与数据中心生命周期不一致的影响;业务需要分布冗余的时候,可以微模块而不是服务器作为容灾的基本单位,同一个园区可以跨微模块分布,更灵活和节省投资。数据中心基础设施(风火水电)的运营与IT运营也分开了,可以大幅度简化管理。

 

    下一步是数据中心监管控系统的南向和北向接口的标准化工作。南向接口是面向微模块内部的控制单元接口,北向接口是到运营管理平面的接口,腾讯希望把这两个软件接口标准化,这样就可以用运营管理系统把海量的数据中心智能、有效地运营管理起来,化解运营方面日益严峻的挑战。前两章中我们已经粗略谈过Google和Facebook在这个方向上的努力,可见大势所趋。

 

    在各种新业务层出不穷、快速发展的互联网时代,数据中心建设速度只有更快,没有够快。美国和中国的互联网巨头都将模块化数据中心作为发展方向,即数据中心建设尽量由传统的工程项目变成工厂生产、现场组装的方式,标准化、快速部署、降低成本。从这一点来说,腾讯的微模块数据中心与Facebook的RDDC(Rapid Deployment Data Center,快速部署数据中心)基于同样的思想,只是由于国情不同而在技术路线上各有侧重。

 

    在大环境允许的情况下,像Facebook这样的公司,已经在尝试包括基础设施在内的整个数据中心的模块化。中国则不同,单凭水循环管道的存在,就很难实现数据中心基础设施的模块化。在这种情况下,围绕IT设施的模块化工作便成了BAT的重点。以机架为单元的天蝎项目是一例,而将多个机柜连同冷/热通道组件等作为一个整体是更大范围上的模块化,如百度的预模块、腾讯的微模块,Facebook的RDDC也包括相应的部分。

微模块数据中心(MDC)的部署 

浪潮宣称,微模块数据中心(MDC)的部署速度可以是整机柜的三倍

 

    微模块数据中心不仅具有模块化数据中心标准化、部署灵活快速的优点,还方便迁移,对使用第三方数据中心格外有帮助。当然,百度和腾讯的业务情况不同,运用起来侧重点有所差异:腾讯的产品很多,一个业务上线初期很难估计其使用量,微模块颗粒度相对较细(又比整机柜粗,交付更快),小量部署也更具经济性;百度预模块的做法更像Facebook和Google,便于快速大规模部署——Facebook在瑞典实践RDDC,动因就是瑞典人工和物料贵,Facebook希望用模块化预制方式解决当地人手短缺的问题。

 

    注:本部分参考了腾讯IDC平台部技术发展中心副总监朱华、腾讯数据中心架构师李典林的演讲和时任腾讯天津数据中心高级经理闫昆的介绍。

 

    (原文标题:BAT的故事(2):腾讯TMDC与模块化潮流,未完待续)


CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢