我们谈到很多业务,这些业务是基于一个平台,这个平台就是网络系统,而作为数据中心来讲,这个网络系统有一个场合,这个场合我们面对的对象是不一样的,密度更高,需要更可靠,需要更安全,需要管理,需要远程的管理。诸多方面,我们会发现它跟普通的场所是完全不同的,也正是在这个场所,我们所有的厂商有一个创新的品牌,所以我们看一看布线系统创新有哪些。
我们的机房规模越来越大,这里面的主角有三个:存储、运算和交换。网络是非常非常重要的,在这里面三个平台之间需要高速公路,需要什么样的高速公路呢?我接下来讨论三个问题,我希望接下来的20分钟能跟大家一起来在这三个问题上达成共识。第一,在数据中心中,布线方面,设计应该考虑什么?性能应该考虑什么?管理应该考虑什么?
作为网络基础构架跟其它任何领域有一个非常大的不同点,有标准,而且要有前瞻性,既要有标准,又要有前瞻性是基础构架一个非常重要的特点。我们谈一谈机房的标准,可能大家对于一般的布线标准是比较了解的,诸如TIA568B、ISA10110还有别的等等,但是他们不是针对数据中心的,那么针对数据中心有什么可以遵循的呢?在国际国内来讲可以看到四个,我们应该重视的四个。2005年出现了942,针对EN50173-5:2007也有,基础设施,电源、空调、照明、选址等等都会这里面。以前国内建机房没有什么特别综合性的标准只能找一个单一的标准自己进行融合,现在有一个好的消息,这个消息是,我们在国内可以找到或者可以借鉴一个国家标准,这个标准叫做GB50173,这个由来以久,最早是1993年,不过可以想象,1993年的网络和今年的网络是不一样的,所以进行了更新,更新的时间是从2009年的6月1号开始实施。
针对942和50174有一点点提示,第一个提示,我们的机房是分级的,当然IDC的机房也是分级的,无论怎么分级,大的思想并没有什么大的变化,有一些异曲同工的地方,就是我们需要建设一个高等级的机房、一个可靠的机房、一个可用性很好的机房。942给了我们一级、二级、三级、四级,不同的角度对它进行描述,当然我今天只是从网络构架来进行说明。
在这样一个描述中,通过冗余的策略,使我们整个体系变得更可靠,所以冗余是我们见到的大多数标准针对于可靠安全的一个非常重要的处理措施。这是一个942针对一个四级,就是Tier4方面的网络构架,在这个网络构架中,有主配线区、次配线区和水平配线区。当冗余到了一定程度的时候,我们的网络不再是新型网络了,我们的网络在某些环境有可能出现一些类似于网状结构的方面,所以针对于这方面我们需要规避的一个问题,千万不要使你的网络出现环路和网络风暴的危险,如何做到这点?需要我们加强管理,无论从网络层、数据链路层还是物理层。
50174,新规范就是指的50174,50174里把机房分为A、B、C三级,对社会的影响度、对社会经济的影响度,所以A、B、C机房是它的分类。不过作为IDC机房,我认为应该向着最高级靠近,就是A级。刚才的942就是tire4,就是四级。50174里我唯一要提到的新的方面,50174里提到A、B机房里采用实时的智能管理系统,当然这里是说在机房布线方面、基础构架方面提到了新的概念或新的方法。
在机房里很多厂商都在致力于监控、管理,包括设备厂商,包括网络管理厂商。我们现在所缺失的是什么?网管很成熟,机房的监控很多厂商都在致力于这方面,但是我们缺失的是物理层的管理,因为没有信号给我们,在这方面缺失了,我们需要来弥补这个盲点。
第一,设计问题,对数据中心的布线设计来讲,我们需要考虑的跟刚才几位联通的康楠、F5的吴静涛都提到了节能的话题,节能、虚拟和云都是节能的方法,机房的监控和机柜机架方面温度的监控措施都是节能的方法。我们能节能的最大领域,这个成份中最能够有用武之地的是制冷,制冷在整个能耗中占的比例非常高,在这个方面IT设备的耗能和整个机房的耗能是有比例的。我们通常用PUE来进行评述,PUE是指整个机房耗能除以IT设备本身耗能,我们机房交的电费一定不是只交给服务器、IDC、存储,我们还交给照明等等其它相关的环境支持。所以这方面我们需要降低,能降谁?当然设备厂商有它的功用,降低本身设备的能耗,或者是在我们的管理方面采用虚拟或云。在基础设施方面,最能够降的其实是制冷,因为制冷占的比例非常高。我们希望PUE的值经过好的设计,可以降为比如1.6或者1.8.我们通常见到的大多数机房,可能会达到2以上,甚至3,就是大部分的电费可能是浪费的,可能是用在一些其它无谓的能耗上。
在942也好,还是50174也好,都谈到一个节能重要的方面,就是怎么节能。这个思路很简单,就是建立冷热通道,冷热通道的建立就是让冷气流和热气流不混合、不交叉,使得设备制冷的冷风不会因为混合而带来温度提高,而带来费用提高。我们需要考虑气流组织,气流如何组织,跟机柜、机架、地板、走线的方位有关系,乃至于跟整个机房的设计布局都有关系。针对这一点,冷热通道已经是众所周知的一个基本考虑,我不再详细说。
我要说的是,从设计角度跟布线有关的是我们要规避一些问题,什么问题呢?我们会发现,当你真正在组织冷热气流的时候,经常阻碍我们气流走向的往往是线路,两类线路:一类是电力线,一类是数据线,这两类线缆通常会阻碍我们的气流组织,所以要进行很好的设计。
冷热通道的概念我希望在这儿能把这个概念再广泛化或拓展一下,冷热通道就是机柜面对面、背对背吗?我认为不完全是,只要你能够让热通道和冷通道是隔离的,是分开的,我想任何措施都有可能是节能的一个方法,包括将冷通道封闭,或者把热通道封闭,或者上下轴线问题。这个图是采用下轴线方式,冷风从地板下通过。而第二幅图是上轴线。我们要根据自己的实际情况进行设计,也需要创新。
这幅图是一个设计不足的例子,这个例子中,空间考虑不够,通俗地讲,地板太窄了,地板高度不够。如果在建设一个高等级机房的话,地板空间要充分考虑。如果只走线不送风的话,地板至少25公分高,如果既走线也送风,地板至少40公分高。如果建一个四级机房,地板还要提高到60公分以上,IDC里面的地板高度是90公分。我们的设计到方方面面,机柜不能顶到顶,还得有空间,没有足够的空间,是不可能建成一个高等级的机房的,这还没有算承重和选址的问题。高等级的机房往往不是改造出来的,是在综合考虑的时候,是预先在选址、建设、规划设计前期就要充分考虑到。
线缆在我们的机房中,刚才提到了很多通道的建立跟它有关系,所以对于线缆的走线空间也要有充足的考虑,越是高等级的线缆,线径会更粗,需要更宽的管槽通道。还有强电和弱电分离的问题,强电会潜在对弱电有一定的干扰。
数据中心的设计应该考虑什么?其实很简单,我可以说是两个词"冗余、空间".因为冗余的存在,所以线缆是属于一个高密度状态,而一个高密度的线缆走向,从节能也好,从管理也好,如果没有空间的考虑,您的机房一定是失败的。
数据中心线缆性能问题。性能太重要了,瞻博的颜博士提到了我们的数据怎么能够安全可靠,F5提到了怎么不丢包、怎么不出现延迟,怎么使我的任何计算数据在信息高速公路里,不因为物理层而出现问题。那么也就是性能问题。
关于性能,现在通行的三个国际标准提到了我们要选择的介质类型,关于这些介质类型我不做深入的解释。六类或者六类以上,光缆是支持万兆的传输要求,所以实际万兆的应用在数据中心里面是被提到一个高度的。高密度的MPO的连接头,也是利于管理、利于性能的。机房里有三个主角,存储、交换、服务器。在这几个标准里面,看一下它的发展史。在多模光缆里,OM3是一个主流,它的价值是使你的数据中心中两个万兆设备之间的连接距离可以达到300米,300 米万兆是OM3的价值。如果再超过万兆,就要使用OM4了。
铜缆,要告诉大家一个比较新的消息,就是6A的出现,我们国内的叫法不一样,有的叫增强六类,有的叫超六类,我认为扩展六类的叫法更为科学。扩展6类是一个增强性的等级线缆,在数据中心中来连接两个实际BASET的端口,如果出现BASET的端口要小心了,如果现在仍然出现超五类或者六类的端口是会出现问题的,只有6A线缆才可以。
谈到性能我还没有回答大家的问题,什么是一个物理层的性能图。说起来很简单,我们有限的物理接口的调制或者解码方面的芯片能做到的,是基于一定的频率贷款,我们把它叫做W,我希望它能承载的是十兆、百兆甚至千兆的应用。换句话说,什么样的物理层才能保证我有更大量的数据量的传输呢?取决于一个关键的地方,这个地方我把它缩写成S/N,就是信噪比。我们的认识其实是简单的,就是我们需要提高线缆的信噪比。
线缆在传输中是有噪声的,无论是内部还是外部都有噪声的存在。噪声既然存在,就需要这种介质有提高或抵抗噪声的能力,我们把这个叫做布线系统的免疫力,布线系统的免疫力就是线缆等级的不同体现,免疫力高的线缆就是高等级的线缆,免疫力低的线缆就是低等级的线缆。选择高等级的线缆不只是为了传输十兆、百兆、千兆,而是使得线缆在传输数据的时候更为可靠、更为安全。如果是稳定的十兆和不稳定的百兆、千兆选择哪一个?肯定会选择稳定的十兆。但是如果我给你稳定的千兆呢?这肯定是最需要的。但是不是随便拿一根线就能做到的?如果一个次等级的线缆,当增加了一定的干扰源的时候,效率会下降,可能会出现丢包,从上层来讲,可能会出现重传,如果是更次等级的线缆,就不可用的。所以我们选择高等级的线缆,并不是为了千兆、万兆,而是为了稳定、可靠。
数据中心线缆管理问题。我参加过很多数据中心方面的讨论,大家有一个共识,中国的数据中心建设,是一流的设备,我们有很多厂商给我们提供非常棒的设备,中国人用的设备绝对不比欧美任何一个企业和公司差。二流的设计,设计跟标准、经验、规模有关系。三流的管理,为什么呢?因为管理是我们自己的事情,设备跟设计的问题交给了别人,而管理却是自己,那么自己的管理就有了很多方方面面的要求,管理流程,管理制度以及管理方面的规范。针对这个问题,数据中心表现得更为突出,首先我们知道在我们的机房中有一个非常重要的主角,我刚才已经屡次提到,是存储。存储中用到物理层方面,有一个非常大的特点,就是光纤量非常大,而且光纤的管理很困难,怎么困难呢?比较细,易于缠绕,不利于标识,还有在捆扎方面也不太容易操作,所以光纤的管理出现了。原来不重视,是因为可能少,但是对于数据中心,对于存储来讲,就绝对不少了,它可能一台设备就需要几十芯乃至几百芯,怎么管?怎么优化?
我们不希望出现以下局面,如果您和您提供的对象有类似环境,要警惕了,这对于我们建立所谓高等级机房、可靠机房相去甚远。从这个图里我希望有三点大家要吸取教训,这个图给你的是,没有配线系统,没有标准化和结构化,没有理线,就是线缆并没有进行整理,没有标识,这是一个很可怕的系统。我们要致力于这方面的改善,其中一个改善的角度就是使我们处理的角度变得更为高效、快捷。颜维伦博士已经提到了,在数据中心要灵活、要快速,在物理层方面也需要灵活、也需要快速,怎么快速、怎么灵活呢?我们来看一下,在接头方面我不知道各位在我出示的一张标准的表格中,有一个连接器的名字叫MPO,但是很多人不知道什么是MPO,是把更多的光纤、更多的芯合在一个接头里面,而不是传统的一芯或两芯,这种接头叫MPO.这种接头给我们带来的价值是什么呢?在我们的存储环节,如果有大量的光纤使用的话,使我们的连接更为快捷和方便,如图所示,有12芯的主干光缆和结合完成即插即用的灵活的管理系统。
通常会出现什么场合呢?如图显示的线缆路由环境里,如果传统可能是几百芯,现在你所面对的可能是一根或者两根,有利于节能,有利于配线系统的优化。还有一个好处,将来对于40G乃至100G的应用扩展,就是并极应用。我们希望我们的局面是由左图变成右图,由零乱的变成有规矩的,由不可管理的变成可管理的,这就是高等级的机房所要求的。
管理的另外一个角度,不论是标识还是理线都是需要现场的人来做的,现在大多数环境是没有人知道只对布线进行关注,就意味着我们的数据库跟物理上的标识往往是不一致的。也就是说,我会提到两个我们传统的管理方法涉及不到的,第一远程管理,第二实时管理。远程管理和实时管理对于网络、对于虚拟、对于其它的应用业务领域很容易实现,但是对于物理层太困难了,你如何管理它?它的信号如何返回给你?所以传统的物理层缺乏这个。
在两个有缘设备之间,是通过布线系统构架出来的,我们的管理对象可以很容易地扩展两端,但是中间环节,一、二、三、四我们并不知道,我们想知道怎么办?去机房,去到配线架那里,去看标识,这就是以前的管理。接现在我们希望我们的管理变为远程的或实时的,需要在这些环节方面使用GB50174引用的管理。
假如在我们的楼宇里面有一个设备接入了,一定是接入到某个位置或者某个信息面上,从网络体系来讲,不适宜对它的观察,因为链路的设备因为网络 IP地址没有在这里出现,我们希望看到的它在什么楼层、哪个房间以及哪个工位,就是它的物理位置,这一点对于我们安全可靠的系统建设是非常有帮助的,这一点可能欧美走得更为靠前一些。反过来,对于一个机房如果跳线是链接了一条关键链路,这个跳线被人恶意地拔掉了,我们只能通过网络知道这是一个故障,但是你并不知道是哪个物理端到端的环节是哪个地方出现了故障,你只有到现场。我们管理员从配线的位置可以知道这个故障发生在哪里,管理员会第一时间收到故障信息,他知道这是一个需要恢复的、需要重建的链路,他会发生一个指令,这个指令会发送到相应的控制平台,现场人员可以接受到指令,这个指令送达现场之后,现场人员可以通过相应的显示屏的显示,来重建链路的重建和链接。这就是所谓的智能布线系统,说得简单一点,就是让管理者和物理层之间形成一个双向的对话。我的问题可以告诉你,你的故障可以告诉给我,而不像以前那样,靠人更为低效率地、不准确地进行现场排查,这就是智能布线带给我们的。
我要回答的三个问题已经回答了第一个问题,数据中心的设计考虑的是什么,数据中心的设计考虑的是标准,但是我今天谈到了更为关键的两点,就是冗余和空间的考虑,一定要考虑空间,没有空间的考虑,即使是神仙,也很难管得好,所以空间非常重要。
第二个问题,性能,尽管我们谈到千兆、万兆的应用,更为关键的是我们的线缆要在信噪比方面。
第三个问题是管理问题,高密度的布线以及智能布线。
最后我用一分析的时间谈到一个我们在布线方面也是50174里面提到的要求,就是我们要提高线缆的阻燃能力,国家标准放得很高,要求很多。有两个可以选择,一个是欧洲体系中的非助燃,一个是阻燃。线缆有一定的阻燃等级,但它也可以燃烧,释放的有害物质少,可以让人迅速逃生。非助燃的是不着的,可以限制火源的蔓延,大家应该重视。