电源协会韩林谈谐波治理:化解供电系统隐形故障
扫描二维码
随时随地手机看文章
中国IDC产业联盟讯 为了提升数据中心行业对安全管控系统更加全面的认识及技术的发展,加速推广电能质量管理系统的应用标准。中国数据中心产业发展联盟特于6月24日在京具举办“2011中国数据中心动力安全能效管理趋势研讨会” ,邀请国内众多资深专家就数据中心安全运维和电能质量管理等议题进行深入交流和探讨。
中国IDC产业联盟网作为中国数据中心产业发展联盟的官方指定媒体,对此次大会进行全程深入报道。
中国电源协会高级工程师韩林在演讲中指出,数据中心的供电系统结构是以目前是以UPS电源为核心的低压交流供电系统,包括输入电源系统以及以UPS为核心,帮助UPS输入、输出配电一直到负载之前的供电系统,包括配电、配电柜、电压其、电缆等。
供电系统的谐波仍然是一个隐形故障,因为在关联系统当中存在两方面的谐波源,一个就是负载的开关电源,虽然05年以后有新的IDC标准,类似于开关电源模块的小容量电源产品,它的谐波不能够超过20%。但是负载的开关电源设备都是一些单向负载,含有一定量的谐波。
以下为中国电源协会高级工程师韩林演讲全文:
韩林:各位领导、各位专家,大家下午好!今天非常高兴有这样一个机会跟大家共同探讨有关数据中心动力安全管理这样一个课题。
目前来讲,数据中心当中存在的问题也比较多,特别是在电源系统方面,由于咱们的时间也比较紧张,所以我就选择两个话题跟大家简单的探讨一下。第一个问题,数据中心系统目前的现状,特别是电源系统目前存在的发展趋势;二是供电系统当中存在的问题,也把它罗列了出来跟大家共同交流和探讨。
数据中心国外从1997年开始大量数据中心的建设,国内是从2000年开始,但是数据中心的建设过去一直没有标准。大家知道,2005年颁布了美国ANSI/TIA-942的标准,,我们国家08年有一个GB50174的标准,有了国内、国外更多的规范,可以获得一些指导性的意见。
经济技术的发展促进了数据中心事业的发展,发展的速度也是非常快,包中大型的数据中心越建越多,每年都可以听到有新的大型数据中心建设在开始,比如像天津的超算,深圳的超算,还有济南的超算这样一些国家大型数据中心。还包括像前些日子听到的,在重庆要建一个10平方公里的云计算中心。像这样一些大型数据中心的发展,说明国内数据中心事业的发展的确有一个突飞猛进的发展。
数据中心成为新经济的一项标志,从各行各业,无论是工农业、企业、商业,包括国防一直到人们的日常生活当中,都受国际互联网的应用,同时它的背后就是数据中心在强有力的支持。刚才很多专家已经谈到了这方面的论点。
打造绿色数据中心已经成为时代的一个潮流,节能、低碳、环保是我们数据中心发展的一个方向,安全、可靠、可用、可信是一个基础,数据中心的建设不可能离开这个基础而单纯的只是向节能环保这个方向去努力。
科学管理在数据中心的应用方面的确还是一个新的课题,建设一个数据中心有相应的一些标准、规范,大家很容易去理解它,并且有一些相应的数据中心的建设部门、供应商,他们可以提供相当完整的基础设施方案。但是真正把一个数据中心用好,能够把它管理好,确实是我们遇到的一个比较新的课题。数据中心的应用包括运行维护、能效管理、人员培训,还有专业化的服务。
数据中心的供电系统结构是以目前是以UPS电源为核心的低压交流供电系统,包括输入电源系统以及以UPS为核心,帮助UPS输入、输出配电一直到负载之前的供电系统,包括配电、配电柜、电压其、电缆等。
在数据中心当中,目前的供电系统应用2N也好,N+1也好,这样的系统的应用是非常多的。建立两套独立的UPS系统,形成UPS。通过UPS输出的配电达到负载的列头柜,进入每个机架。这是最常见也是最普及的供电模式。对于一些比较重要的负载来讲,还可以通过STS,通过负载列头柜来实现二次性的双母线的负荷,也就是把原来的双母线变成一套与原来不基本一样的复合双母线为一些新的负载去配电。比如金融行业,有一些生产性的负载,都是采用了区域3、区域4这样的供电诺士。STS的系统来讲,它的可靠性、可用性以及可维护性都会得到一个比较好的发展。当系统容量增大的时候,我们也可以在系统的建设上预留一定的安装接口。
供电系统设计和配置中存在一些问题,有一些和后期的运行管理有密切关系。一是供电系统可靠性、可用性存在的问题:负载对供电可用性的要求越来越高,可用性按照我们的理解,负载计算机可以正常运行的时间与总时间之比,这个正常运行时间里面应该包含有降级使用的时间。什么叫降级?比如说UPS是2+1冗余的,换了一台,现在没有冗余了,但是你的计算机依然能够正常供电的,这种就是属于降级使用。降级使用的时间应该在可用时间或者正常运行时间之内,如果要不把它包含在可用时间之内,就会带来很多将来在运维管理方面的误导或者观念上的混淆。
负载对供电质量的要求降低,为什么?是因为目前来讲,我们的计算机负载输入范围变宽了,比如说电压,从原来5%,现在放宽到10%,频率从原来的1%,现在也放宽了。
负载对供电连续性的要求有所提高,但是对于供电瞬间的间断时间要求也是降低了。刚才很多专家都已经讲到,从CBEMA这条曲线规定计算机的供电电压等于零的时间是10个毫米,后来后来的曲线公布出来的电压等于零的时间已经放宽到20毫米。所以计算机对供电要求不是很苛刻。
作为电源系统来讲,如果单纯来提高某一个设备或者某一个装置的可靠性,现在来讲已经很难了。大家可以理解,比如断路器我们可以选择一些比较好、比较知名的品牌,但是你要让这个断路器各项性能能够再提升一个台阶,它的机械强度、短路电流的承受能力等等再要增加的话很难。UPS也一样,发展到现阶段,如果让UPS的MTBF再成倍的提高也不可能。在这种情况下,改变设备可靠性已经比较难,所以如果要想使负载获得更高的可用性,只有从系统架构上去提高它的可用性。
经常大家说各个厂家的设备都差不多,这也说明我们的产品已经成熟化,市场化,甚至就是一个通用设备,跟电视机一样,你的电视机可以接录像机,可以接数码相机。
当电源设备仍然占据一定比例,成为单路径故障点。所以在这方面还有可以进一步改进的。双电源供电系统日趋成熟,但是配置结构相对复杂,不光是设备的种类多,而且包括供应商也很多,这个时候可能就会出现众口纷纭的情况。这个“口”不光五流传,大家有一个口碑,而且各个供应商之间的接口也是非常重要值得我们探索和深思的。[!--empirenews.page--]
我们在这提出来一些问题,并不是说一个专门的研讨会去研讨它的技术,只能说我们去提供一种解决的方向。比如说我们可以通过冗余来改变系统的可维护性,一个系统不可能不对它进行维护,任何设备、电缆、断路器、UPS、ATS都是需要维护的。
用双总线来增强故障容错的能力,避免天灾人祸。比如像很多重要的行业,自从四川大地震以后,包括日本地震以后,要求UPS也拿去做震动测试,震多长时间,按照多少级来震,这些实际上是对产品品质的监测,但是对于系统来讲,我们是一个基础设施,所以还是以双总线的形式去做是一个比较好的选择。
模块化,大家有的时候都是考虑到UPS产品自身的模块化,认为UPS是有一个一个的抽屉插入的。这个观念比较局限化,在大的系统里面,不可能采用一个10千瓦、20千瓦的模块去拼接一个计算机系统。现在经常遇到的中大型数据中心变压器2500,UPS2400,这样一个大的系统要用10千瓦、20千瓦去拼的话,节点就太多了。
可管理性,刚才大家也提到了很多,包括一些新的设备和仪器,它不仅是对于设备、系统的管理,可管理性应该还包括人员的管理。在942当中,对于人员的培训、管理、服务提出了很明确的要求,但是大家往往看的比较多的、关注比较多的是空调应该怎么配,UPS怎么配,接地怎么做,但是真正对于人员的管理、对于人员的培训重视的程度不够。所以我们要避免一些人为的故障,预见一些问题的隐患,其实跟人员的培训还是有密切关系的。
系统的集成化,提高系统的可用性。我们所说的系统集成化并不是说所有设备的罗列,而是希望从供电设备的制造商和渠道商来讲,能够做到统一化。有的数据中心可能为了平衡关系,空调是一个厂家,UPS一个厂家,甚至谐波治理是另外一个厂家,有负载电路柜的供应商等等,一套电源系统结果弄的十几个供应商,出了问题之后,大家就该相互推诿了。在工程设计和施工的规范化,采用的是比较专一的供应商的话,工程设计和施工方面有一个按照他比较规范的行为去做这样的事情。
设备和子系统的集中管理,前面专家讲的比较多,在这就不占用大家时间了。
供电系统的谐波仍然是一个隐形故障的问题,因为在关联系统当中存在两方面的谐波源,一个就是负载的开关电源,虽然05年以后有新的IDC标准,类似于开关电源模块的小容量电源产品,它的谐波不能够超过20%。但是负载的开关电源设备都是一些单向负载,含有一定量的谐波。这些新的特性也要求UPS有一些相应的变化。
UPS主要的谐波来自整流器,特别是可控硅整流。谐波对于电缆、供电系统有很大的危害。由于电源系统当中谐波的存在,对于接地系统也提出非常苛刻的要求。大家都知道,零地电压的问题,中性线电流的问题,这些方面都有一些相应的问题。
解决的方向,如果是UPS本身谐波高,最好输入谐波含量低的UPS。比如,IGBT-PFC整流的无变压器UPS。选择按照“高负载功率因数”设计的UPS,例如06年以后设计生产的高频机UPS。选择运行效率更高的UPS,例如互动式(VI或FD)UPS。随着数据中心的发展,计算机负载对于供电可容性要求高,对于输入放宽了,所以互动式UPS才有可能重新进入到供电中心。从绿色、能源角度来讲,互动式UPS更是发挥了它的高效率。
消除零地电压也是电源系统特别重要的一个问题,但是我们觉得零地电压在以往的电源系统建设当中有一些误导。现在的开关电源模块是电气完全隔离,从交流输出到直流输出,从220V交流输入一直到后面计算机的输出,中间都有高频或者耐冲式的变压器进行隔离。所以开关电源或者说CPU的对于交流电源系统的中线已经没有这种依赖性了,CPU对于零地电压并不敏感。
通讯方式的改变,也是对零地电压不是那么敏感了。过去都是采用计算机是点对点的方式,点对点应用最多的就是串行或者并行,串行信号或者并行信号的传输方式现在已经以以太网、光缆传输这些东西取代,所以对于直流地已经不再依赖。新的服务器上面几乎没有一个明确的标注点说这个就是直流地,我们都看不到,在这种情况下,零地电压对计算机负载并不敏感。
再一个比较误导人的是,零地电压上升都是UPS造成的,实际上UPS并不是零地电压上升的元凶。
隔离变压器,它可以比较好的降低零地电压,特别是重新组成的零线系统,使得零地电压比较低,但是我们也要探讨加这个隔离变压器在你的系统当中对于可用性的提高有没有必要值得商讨。因为变压器的引入带来了很多问题,比如说变压器的励磁涌流的问题,它对于发电机的冲击是一个不可忽视的问题,包括断路器选择性的配比,都是非常重要的问题。还有由于安装了变压器,假如下线负载短路,短路电流会造成变压器二次电压的跌落问题,如果跌落比较多,超过10%或者超过15%了,很可能这个变压器下面所有的负载都要停电,因为变压器的电压过低了。
供电系统建造成本和能源效率问题,一个是PUE,一个是TCO。解决建造成本的问题,包括提高设备利用率。不要过度规划,数据中心的负载量、电力的评估、电力的估算、空调制冷的估算往往会造成过度规划。刚才很多专家也提到了,负载率那么低,你的效率不可能高,再加上过度规划,实际负载率远远低于设备的负载率,这个时候对于电器设备来讲,对于UPS来讲,也希望UPS有智能化的休眠和唤醒功能。
系统运行、维护的难度问题。供电系统日趋复杂,没有正常的维修保养时间,这是后期的运行和维护保养中经常会遇到的一个问题。一个2N的系统或者2N+1的系统本身是可以同时维护的,但是系统的管理人员或者运维的制度不允许或者不能够给你提供预防性的维护时间,你不停电,没问题,你可以帮忙测测连接有没有问题,但是一到了设备,你的设备太脏了,我得清扫,清扫肯定得停电,不停电谁敢去清扫?再说吹出来的灰尘本身含有一定的导电颗粒的话,也会故障。把一个可以停电维修的系统不给它提供预防性的维护时间。还有提到不允许转旁路,包括在一些用户现场看到过的规章,双电源负载不允许一路供电。还有不敢进行电池放电测试的,多少时间做一次?我们一年也不做一次。为什么不敢动?动了怕电源出问题。这是运维管理者概念上的偏差。易损部件不愿意更换,在设备里面,你要想获得一个系统的高可用性,对设备的维护,更换一些易损件也是必须的。[!--empirenews.page--]
系统要求提高运行维护水平越来越高,但是很多数据中心缺乏一个系统化的专业培训。供应商多,工程界面多,出了故障以后,大家相互推诿,说这个不是我管的,这个你找电池厂商,那个你找发电机ATS厂商等等。
在数据中心规划设计的时候,事实上不管是设计部门也好还是设计人员也好,对于系统设计缺乏一个全面保护的规划和设计。比如说电源系统设计的,我就管变压器,我就管空调多少容量,至于每一台UPS输入断路器怎么诊定,输出断路器真怎么诊定,他是没有这个设计的,设计人员拿不出一个系统的方案,拿出来的仍然是零零碎碎或者安全以往经验做出来的评估。假如说12脉冲的UPS你应该怎么整这个断路器。规律也很简单,大家真正理解它了,设计人员也能做好这个工作的。
缺乏第三方认证和评估,在国内曾经有人问我,你知道咱们国家哪能做数据中心等级的评估吗?我说不知道,还真没有一个国家的权威机构,哪怕是民间的机构也可以。大家对于数据中心的建设,说我花了这么多钱,到底我是不是按照A级的机房标准来建设的呢?到底我哪不够A级,哪是已经超过了A级,这种真正的第三方认证和评估,对于整个数据中心的管理来讲仍然是比较的困难。
解决方向,对于人员的管理和对于设备的管理两方面应该是齐头并进的。刚才也提到了培训,专业培训大家最好能够消除一个误会,我们的专业培训不应该是某一设备的维修培训,因为我们的运维人员针对的是管理一个整个的系统,不管你的电源系统也好还是空调系统也好,还是安防系统也好,对你这个系统的来龙去脉,比如说电源系统从变压器、发电机一直到列头柜甚至到列头柜的配电单元,你是不是都很清楚它的容量,知道它的利用率,知道它有什么毛病,知道它有故障的时候我去找谁,很多东西都不知道。一讲培训,就是这个设备UPS应该怎么开关机,怎么来操作,这些不是说没有必要,但是我们不能把运维人员的培训局限在原理培训上。还包括演练,我听说很多银行每个月或者两个月都有这样一个演练,也是非常重要的。
应该选择有资质的供应商,建立必要的专业化服务。设备的修理是设备厂家的事,但是管理这样一个服务是我们运维人员或者数据中心管理者应该做的,只有通过你选择合适的供应商,有诚信,经过一段时间的考验,同时建立专业化的售后服务合同,才能真正做到24小时的现场响应和专业化的服务。
就简单跟大家说这些。谢谢大家!