浅谈信息机房的日常管理和维护
扫描二维码
随时随地手机看文章
引言
随着曲靖供电局信息化工作的进一 步推进 ,信息技术已经成为企业日常运行不可或缺的工具 ,在此基础上曲靖供电局建立了通信机房、自动化机房、信息机房 ,这些机房支撑着曲靖供电局的电力生产、信息通信、日常工作 。通过企业信息集成平台可以让员工及时与企业互动 ,发展企业文化 ,还可以让员工把自己喜欢的作品发布在文化交流栏目:订餐系统支撑着员工的一 日三餐 ,不但可以现场点餐还可以网上订餐: 门禁系统、考勤系统、无纸化会议系统是企业智能化办公的集中表现 。正是由于机房承载的业务量大 ,所以 ,信息机房日常的管理和维护是一个严峻的问题。提高日常运维质量 ,可以保障各种信息系统、生产系统高效稳定运行。
1 信息机房管理、维护中存在的问题
1. 1 机房使用频率很高
为了明确地说明运维中存在的问题 ,本文以笔者自身的工作经历为例进行分析 。笔者所在的电力企业有员工3 000余人,企业内部有3个机房 ,其中包括曲靖供电局信息机房1个、通信机房1个、自动化机房1个 ,个人PC机超过4 000台 ,人均占有率高 ,信息机房服务器近200台 ,还有若干1T设备、核心交换机等。信息机房内的主机主要用于企业信息化和智能化建设 ,同时还承担内网和外网的沟通功能:专用机房主要用于企业设备内部生产 ,没有沟通外网 , 比如相关的电力调度等 。不论是信息机房还是专用机房 ,其内部的1T设备都较多 ,尤其是信息机房 ,每天都是高负荷运行。
1.2 机房负载大 ,设备故障易发
因为信息系统很多 ,机房的服务器每天24 h不停机地运行 ,几乎没有休息保养的机会 ,这种长时间高负载且没有适宜的温湿度环境容易造成主机硬件出现老化或损坏的情况 ,进而导致整台服务器损坏 ,造成应用系统的瘫痪。特别是我局目前为止有多达27个业务系统 ,这种情况就更容易发生了。
2 信息机房环境的日常维护工具
2. 1 KVM系统
曲靖局信息机房在建立之初就建立了KVM系统(KVM交换机、KVM管理模块、KVM网线) ,便于对信息机房设备进行统一管理,提供服务器1P地址为192.168.1.180,有多用户同时在线和传输数据加密高级功能 , 内置全程操作过程屏幕录像 ,录像为专用高压缩、小体积格式 ,用于操作回退 , 并支持L1NUx 虚拟机 ,极大地提升了系统的流畅度 ,提高了运维效率。
2.2 3D可视化系统
(1)树形菜单:单击窗体左边的标志 ,将弹出图1所示树形菜单,单击节点树上的相应按钮就进入了相应的设备监测窗口。
例如:"中心机房",单击该标签 ,可以收起或展开下面一层的节点。监测界面会在首页头部的导航栏旁边出现图标 ,如图2所示 。同时 ,在主窗口右列表中出现该窗口 。要关闭它 ,双击"动力环境监控"标签 ,将会关闭"动力环境监控"监测界面 ,也可以切换到别的监测画面 , 只要点击相应的按钮即可。
(2)该窗体部分列表框显示当前告警数量 ,如图3所示。
如果要查看该告警的详细信息 , 点击要查看的相关告警 ,会在主界面右边显示告警信息 ,如图4所示。
该告警界面包括未确认告警、已确认告警和未确认已解除的告警。如果没有在告警栏里确认 ,就会将此告警显示到未确认告警里 。如果没有确认告警 ,告警解除后 ,就会将此告警确认告警里 。如果没有确认告警 ,告警解除后 ,就会将此告警显示到未确认已解除的告警里 。当未确认已解除的告警确认后就不会再显示在此界面上。
该界面告警还可按告警区域、告警等级和告警设备来查看。
(3)搜索功能:在搜索框内输入组态页面树形节点名称 ,可搜索定位该节点 ,并打开该组态页面。选择相关界面后 ,点击即可进入需要进入的界面。
(4)可以启动自动轮询和查看当前所有服务器状态 ,还可以看到当前在线的用户和登录时间。
启动自动轮询:在系统设置中设置自动轮询列表以及自动轮询时间间隔 ,单击"启动自动轮询"启动自动轮询功能。轮询功能是指可以按系统设置好的间隔时间在主页上弹出各个组态页面 ,一遍遍显示各个页面。
服务器状态:在该模块下 ,可以看到当前服务器在线状态外(备注:红色离线、绿色在线) ,还可以看到该服务器下的设备是接在什么上(如CoM、SNMP、串 口服务器)和设备当前状态(备注:灰色停用、红色通信失败、绿色通信正常) , 并以树形列表展示 ,让用户更直观地看到服务器和设备的当前状态 。该系统集成了中广控门禁系统、海康威视的监控系统 ,北京楷峰的绿色机房管控系统。
2 .3 电子配线架系统
为了进一 步提升网络布线的可靠性 , 信息机房在2015年机房投入使用的时候建立了电子配线架系统 ,分布式管理架构应运而生。每一个网口都配置了管理模块 ,每一个机柜都配备了EPV管理单元 ,管理单元实时监测所在机柜电子配线架的运行状态和跳线的通断状态,上传到配线架(192.168.1.190)管理服务器 。EPV通过电子链路汇聚到服务器 , 由于不存在单链路 ,提升了系统的可靠性 。
2.4 做好防雷与防水等安全防护工作
服务器和核心交换机是信息机房的主要1T设备 , 因为它们为机房的核心设备 ,所以要做好防雷击、防水淹等工作 ,做到严格的保护 ,不能存在一点点麻痹大意。在信息机房进行基 础建设时 ,就要做好机房整体混凝土结构的防雷接地设计工作,但这也不能完全避免机房雷暴天被雷击 ,所以在出现雷雨天气时 ,一定要提前做好防雷、防水工作 。信息机房水浸监测系统如图5所示。
2 .5 加强机房管理员的培养
机房管理员是信息机房的守护者和负责人 , 其综合素质的高低是决定信息机房能否安全高效运行的重要因素之一 。但是有些业务部门为了节约信息机房的运行成本 , 就让之前有过一 点运维经验的工作者兼职担任信息机房管理员 , 这样做会导致信息机房管理员不能全身心地投入到信息机房运维管理工作中 ,而信息机房的管理员水平高低不一 ,这在平时无所谓 ,可一旦信息机房出现紧急事件 ,兼职的信息机房管理员就很难第一 时间正确地处理事件 ,将损失降低到最小。
3 结语
信息机房在为企业办公自动化提供保障的同时 ,还可以给员工的日常生活提供便利 ,但由于服务器、1T设备利用频次太高 ,机房在平常的利用过程中必须要时刻注重保养 ,要从领导者、信息机房管理员、企业员工三方面入手 ,结合信息机房的规章制度、运行行为准则等 ,从源头上杜绝机房各类危险源 和人为给机房带来的一些损害。