当前位置:首页 > 中国芯 > 新华三
[导读]作为互联网云计算等领域的底层硬件基础设施架构,服务器承载着关键业务的运行支持和各项技术的迭代优化,不可避免得对整机性能有着卓越的要求,对系统可维护性有着远高于家用PC的标准,对运行稳定性有着更为严苛的规范,所以通用服务器需要兼具高性能,高可用和高可靠性。即使服务器在开发阶段已经过早期各项数据仿真,多次PCB回板验证及各种极限场景下的严格测试,但仍不能保证万无一失。如何确保服务器在运行过程中能够被有效管理,能及时诊断故障,这就依赖于管理和监控服务器的关键部件:基板管理控制器(BMC,Baseboard Management Controller)。本文将对服务器BMC相关内容进行详解,深度刨析BMC相关技术和未来发展趋势。

前言

作为互联网云计算等领域的底层硬件基础设施架构,服务器承载着关键业务的运行支持和各项技术的迭代优化,不可避免得对整机性能有着卓越的要求,对系统可维护性有着远高于家用PC的标准,对运行稳定性有着更为严苛的规范,所以通用服务器需要兼具高性能,高可用和高可靠性。即使服务器在开发阶段已经过早期各项数据仿真,多次PCB回板验证及各种极限场景下的严格测试,但仍不能保证万无一失。如何确保服务器在运行过程中能够被有效管理,能及时诊断故障,这就依赖于管理和监控服务器的关键部件:基板管理控制器(BMC,Baseboard Management Controller)。本文将对服务器BMC相关内容进行详解,深度刨析BMC相关技术和未来发展趋势。

BMC概念简介

BMC是用于部署/诊断/管理服务器的核心部件,负责管理系统管理软件和平台管理硬件之间的接口,提供自主监控、事件记录、恢复控制等功能。通常情况下狭义上的BMC会被理解为只是服务器主板上单独的管理芯片;但从广义上BMC是一个SOC系统,它分为BMC芯片和BMC固件两个层面。当前计算机架构是由冯诺依曼体系结构构成,分为输入设备、存储器、运算器、控制器、输出设备。这当然也是服务器业务运行的节点构成,但BMC却不属于以上业务节点的构成部分,所以它不依赖于系统上的其他硬件,如CPU,内存,硬盘等;也不依赖于系统上的其他软件,如BIOS、OS、CPLD等。换句话来说:BMC是完全独立于服务器计算节点之外的一套专用管理小系统,当然它也是基于冯诺依曼架构,但比主机服务器享有更大的权限,这有效地保证了业务节点和管理节点的分离,保证业务节点不会干扰管理节点,而管理节点可以实时对业务节点进行管理监控。

服务器管理网络和业务网络分离架构

BMC发展至今已有20多年时间,对服务器系统的后台保障起到了至关重要的作用,优化解决了企业级客户对于服务器部署,监控,管理等难点,也一定程度上促进了数据中心服务器市场这二十多年多的蓬勃发展。

和PC架构的区别

和传统PC架构相比,服务器架构最显著的增值点就在硬件冗余设计和新增部署、诊断、管理网络,这也是企业用户和个人消费者业务差异的区分。一方面冗余设计首先要取决于硬件自身支持,比如双电源冗余、内存ECC功能、磁盘RAID技术等等,但当系统实际发生故障时,BMC需要第一时间捕捉异常,实现实时告警及log上传,运维人员可及时锁定故障部件并完成替换,保证业务稳定不中断。另一方面部署诊断管理网络也是通过BMC来实现的,例如监控运行状态、升级机器固件、远程批量部署OS、针对严重事件的自发纠正等等,甚至BMC还支持和系统BIOS进行交互,对BIOS设置项进行批量的部署调整,合二为一,起到更好的服务器平台管理效果。从功能维度来看,BMC可以用于采集服务器上所有硬件、OS层面的信息并交互管理,将这些信息提供给上层运维网管软件,传递的方式可以通过SNMP、IPMI、Redfish等API接口,分为被动获取和主动上报两种模式,一般检测到故障产生或者监控参数达到设置阈值上限时,会通过Redfish http/https报文、SNMP trap、SMTP邮件通知等方式同步给到上层管理网络服务器,可清晰地获取到故障发生时间,故障机器及部件位置,结合厂商BMC平台告警信息指导,即可快速定位故障原因及处理建议。

BMC基础功能

BMC在整个服务器系统内主要是用于平台管理,一般包括以下几个方面功能:

自主监控:组件(如CPU、内存、芯片组、环境、部件等)的温度、电压、风扇状态、电源状态等等

日志记录:当检测系统出现错误(如某一设备温度过高,服务器蓝屏宕机)时,生成相关日志并保存

恢复控制:当检测到严重错误(如CPU core温度超出阈值,整机功耗超出电源额度功耗范围)时,可将服务器下电保护

Web Server:提供Web界面,用户可以访问Web并查看系统状态

远程控制:远程上电/下电/复位服务器、vKVM、vMedia

风扇转速控制,主要用于系统散热优化

告警功能:LED指示灯、SNMP Trap、邮件通知等

BMC管理芯片及固件市场趋势解读

当前BMC已成为服务器系统必不可缺的一部分,无论是在x86平台还是ARM平台,甚至其他异构计算平台亦是如此。BMC硬件架构层面,目前国内外服务器普遍采用的是ASPEED公司主推的AST系列芯片,当前最新量产型号为AST2600,是ASPEED推出的第七代BMC管理芯片,基于ARM Cortex A7双核心处理器,采用28nm制程工艺,在运算速度和功耗上做了极大的优化。

一台传统的数据中心服务器会配置一颗BMC管理芯片,嵌入在服务器主板端。但随着近年CPU+GPU+DPU概念的兴起,CPU用于通用计算,GPU用于加速计算,DPU用于数据处理的模式被定义为未来云计算架构的趋势。由于GPU、DPU高价值部件承担着平台非常重要的工作负载,BMC管理芯片的嵌入也从主板级别扩展到部件级别,单个服务器平台甚至能够消耗多颗BMC管理芯片,这也使得全球服务器市场BMC管理芯片需求量有增不减。

在固件架构方面,BMC固件同样是BMC系统中不可或缺的一部分。如果把BMC管理芯片比喻成BMC系统大脑,那BMC固件就是BMC系统灵魂,二者缺一不可。目前全球绝大多数服务器厂商都是基于AMI提供的BMC MegaRAC codebase开发的远程管理固件平台,MegaRAC兼具RAS(可靠性、可用性、可服务性),拥有安全稳定的特性及快速的商业技术支持。基于MagaRAC BMC固件和AST系列BMC管理芯片开发服务器管理平台系统是当前最有效,最快捷,最稳定的开发模式。除了AMI之外,市场上还有其他的IBV厂商提供商用的BMC固件解决方案,从目前来看这些厂商基本都是Intel/AMD授权的x86平台独立BIOS开发商,从BIOS codebase开发衍生拓展到BMC codebase开发,也是基于BIOS/BMC平台的交互设计开发理念及服务器BMC市场需求的强力驱使。

当前服务器BMC固件主要是由传统的IBV厂商提供支持和服务,需要向IBV厂商支付codebase、new feature、license等费用。全球top的云服务/云计算厂商为了降低BMC固件资本支出及BMC固件开源生态的促进,也在积极推进各大服务器OEM/ODM生态厂商融合参与一些开源BMC固件解决方案的导入,共同推进BMC固件相关新技术和新产业的发展,其中最有影响力的当属OpenBMC开源固件。

OpenBMC介绍

正是大环境促使下,OpenBMC应运而生。OpenBMC是BMC的Linux发行版,可以为不同服务器主板定义统一的管理监控平台API接口。OpenBMC使用Yocto Project作为底层构建和发行的框架,并结合OpenEmbedded,Systemd和D-Bus等技术来轻松定制管理平台。

OpenBMC属于开源BMC固件解决方案,服务器平台厂商,部件厂商,包括BMC芯片厂商在开源社区贡献自身代码,共同维护OpenBMC开源的生态环境。传统BMC FW vendors是通过提供付费的闭源代码及授权维护来获得商业回报,厂商需要BMC FW vendors的迭代适配以获得底层codebase支持,开发组件在不同codebase平台上不具有移植性,同时服务器的开发进度将会强受限于BMC FW vendors的固件发布计划。而OpenBMC给厂商带来了商用友好的开源license,准标准化接口,厂商可以自行开发特定需求并以较小的代价在不同平台上移植使用,加快特性开发流程。总结而言,客户对于快速BMC固件迭代周期和更多透明和控制力的需求驱动了对OpenBMC开源固件的需要。OpenBMC的日益兴起也促进了IBV厂商的战略调整,目前AMI也积极参与投身于围绕OpenBMC等项目的开源固件研发工作,希望涉足这一不断增长的领域。2021年AMI也正式发布基于OpenBMC开发的MegaRAC OpenEdition开源解决方案,紧随新时代趋势。

闭源BMC和OpenBMC生态合作模式的差异点

现阶段OpenBMC生态也存在一些问题,包括平台的功能多样性问题、板卡生态结合有待提升问题、缺乏商业支持,问题解决难以得到时效保障问题等。新技术在发展的初期都会遇到各项挑战,主要来源于原有规则下的束缚和牵制,但即使AMI BMC在整个全球市场一家独大的环境下,OpenBMC仍能够破茧而出,发展壮大,并得到Intel、Microsoft、Facebook、Google等业界知名厂商的联合推广,足以看OpenBMC在发展演进过程中必然会是服务器行业生态厂商未来积极探索的BMC领域新方向。

新华三在BMC领域的探索与实践

新华三集团作为业界领先的数字化解决方案领导者,坚持以技术为核心,以创新为驱动,目前在网络、服务器、存储、云计算、安全等重点领域均掌握核心技术。在服务器领域,当前已拥有业界覆盖最全的产品线,H3C UniServer服务器年出货量及市场份额占比已稳居国内第二,增长势头仍然保持强劲。

H3C UniServer服务器全家福

这里介绍一下H3C UniServer服务器BMC管理平台-硬件设备管理系统(Hardware Device Management,以下简称HDM),HDM是H3C UniServer服务器内置的软硬件一体的嵌入式管理系统,提供对服务器硬件设备的全生命周期的监、管、控,能帮助客户实现更智能的服务器运维和更高效的全生命周期管理。

新华三自研硬件设备管理系统-HDM

HDM提供了丰富的管理接口(IPMI/HTTPS/SNMP/Redfish),满足多方式的系统集成需求;提供多样的远程维护手段,支持虚拟KVM,支持RAID带外监控配置,支持BIOS/BMC/RAID配置导出,提升服务器远程管理效率;提供先进的故障监控与诊断,支持Syslog报文、Trap报文和e-mail上报告警,对服务器进行全面的精细监控,支持SHD(Smart Hardware Diagnosis,智能硬件诊断系统),方便故障定位和更换;支持安全管理特性,双镜像备份,PFR固件保护功能等。除此之外,H3C HDM Web端还支持温度海洋视图,热力图,可实时显示服务器机箱中各组件温度传感器的分布图及数值。同时H3C UniServer服务器部分可选配3.5英寸可触摸LCD液晶显示屏,可直接从HDM获取服务器状态信息,方便了服务器的临场巡检及维护。H3C全系列服务器标配HDM管理系统,兼具安全可靠、运维高效、开发敏捷的产品特性,致力于为百行百业客户提供更智能的管理平台。

H3C HDM温度海洋及热力图

在BMC固件架构方面,新华三始终保持开发融合,技术引领的理念,在OpenBMC发展早期,已成立专门研究OpenBMC领域的固件开发团队,并且积极参与国内外主要BMC标准组织,如OCP、DMTF、DCIA、FTIA等,参与各种标准讨论与制定会议,也主导发布了一些国际/国内服务器平台管理规范。

作为数字化解决方案领导者,新华三将继续坚持技术创新和解决方案双轮驱动,持续在开源固件OpenBMC上突破前行,不断提升产品领先性和创新性,相信大家在未来不久时间内就将能看到H3C UniServer服务器BMC新硬件+新固件架构产品解决方案的正式商用。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭