运营商的自动化与智能化运维现状分析
扫描二维码
随时随地手机看文章
运营商的运维现状
连接超过50亿移动用户的电信行业已彻底改变了世界。它让我们彼此相连、带给我们娱乐、传递给我们新闻、给予我们灵感。一直以来,电信运营商都是这些变化的掌舵者, 但如今运营商们却陷入了与互联网和OTT服务商日趋激烈的竞争之中。他们需要在不断追赶中实现自身的数字化运营运维转型,以迎接来自这些最成功的数字化企业的挑战。
如今的网络主要是由人来管理。在网络运维中心,工程师们不仅每天监控着成千上万的告警,还要创建故障单来跟踪问题的解决。该运维模式依赖于烟囱式的运维软件,居高不下的人工和重复性劳动、垂直且不易拉通的组织结构,难以给运营商带去数字化转型的收益。要提高成本效益和质量,运营商需要探索创新的运维模式,并从互联网行业汲取经验,以便建立更加敏捷的运维模式。
正如加拿大TELUS首席无线架构师Frank Qing所说:“虽说我们使用的是21世纪的4G网络,但网络运维在某种程度上却还停留在18世纪。机器制造都已经实现了自动化了,但电信行业仍在使用人工劳动力。”
运维需要自动化与智能化
部分流程不可视、不可管,烟囱式运维模式和昂贵的运维成本,是当前运维的主要痛点。大量工作需要人来手动完成,导致故障平均恢复时长较长,这些都影响了网络业务质量和终端用户体验。
运营商目前使用的大多数运维支撑软件(OSS)都是基于封闭的软件架构设计的。这些架构基于不同领域部署,从而形成一个个运维孤岛,使得软件变更周期不可控,拉长了新业务的上市时间。
运维工程师必须经过培训才能使用软件系统执行日常任务。他们未必懂得如何增强软件以适应不断变化需求,还可能受限于不允许定制软件的功能限制。由于手动操作的单调和重复性,运维人员会失去动力。枯燥的工作也导致严重的运维人员流失。
运维组织层级化,官僚化。例如,通常有三个层级的客户服务和网络运维,这也是烟囱式软件和流程式烟囱的一个表现,并且在级与级之间存在大量的手动切换。
当前运维模型的这些不足是自动化和智能化的关键驱动因素。实现自动化和智能化有助于运营商对其运营进行全面检查,以实现业务,服务和运维的灵活性。
然而,转型并不容易。根据麦肯锡(McKinsey )的调研,基于种种原因,超过80%的转型均以失败告终或无法实现其预期价值。所以电信行业应该向OTT服务商学习,去了解他们运营灵活且成功的原因。
向OTT服务商学习
互联网供应商,特别是OTT服务商,已经颠覆或正在改变几乎所有行业,哪怕是根基稳固的传统企业也不得不做出改变。
比如,亚马逊借助AWS业务,将存储和计算资源商品化,提供按需的、基于云的IaaS和SaaS解决方案,颠覆了传统计算机行业。与此同时,优步和爱彼迎给交通出行和酒店业也带来了类似的影响。
这些企业将其成功大部分归功于他们运营模式,并归纳了下面关于数字运营的基础共性,如:
高度自动化的运营流程
云基础架构
熟练掌握软件技能的操作人员
基于DevOps原则进行业务设计和交付
使用基于微服务的软件架构
应用程序编程接口(APIs)
谷歌使用DevOps建立“站点可靠性工程”范式,打造具有运营思维的软件产品,这些软件可以自动执行重复和反复出现的任务,以减少过程中出现的手动错误。优步采用灵活且可扩展的基于微服务的软件架构取代单片操作软件架构,以便快速,可靠和独立地跨区域发布软件。 Netflix基于云的服务基础架构和DevOps流程实现软件驱动的自动化运营。
自动化:自主运维之路
虽然目标是自主运维,但是这种转型却是循序渐进的,只有采用渐进的自动化方法才能实现。作为流程转型的一部分,运营商应不断寻求自动化的机会。他们应该遵循这个原则:所有可自动化的操作都应该被自动化。下面的图1说明了自动化自主运维的演变。
依赖重复的手工流程体现在:操作人员要么把相应的步骤写入手册,要么将其形成个人知识库。但即便手册说明足够详细,操作人员经验足够丰富,依赖手工流程也容易出错。 不精准的分析和不正确的配置所带来的风险极高,可能会带来服务中断、收入损失和客户流失等问题。因此保证每次任务都能准确一致地完成,是非常重要的。
软件自动化对手工流程最有助益,组件化的软件工程方法可以精确地识别重复的手动任务。首先就是把简单且反复出现的手动过程自动化。自动化的最终目标是将软件惯例打包为可重用的组件,从而使这些组件能够根据数据驱动的决策点和规则自动触发和执行任务。
智能化:实现预测预防性运维之路
工程师们在移动网络的规划设计、运维优化过程中,严重依赖于自身对网络拓扑结构以及终端用户移动性和使用习惯的深刻理解。随着这些网络拓扑变得更加复杂密集,工程师越来越难以预测和计算这些使用模型。为了解决这个问题,我们需要利用来自网络不同区域的所有数据:不仅仅是运维数据,还有网络其他领域的数据。这些数据可以被反馈到模型中,我们可以通过模型提取和运算获得深入和可操作的见解,进一步优化运维。
为此,运营商必须首先建立单个统一数据库,该数据库能够记录、处理和聚合源自基础架构以及网络和IT应用层的数据点,例如日志文件,网络计数器,交易数据和网络遥测数据。我们通过分析,掌握有关运营的各个方面并实现智能化,使其就像人类大脑一样能够从环境中学习,以便在将来相同的运营环境中做出更好的决策。于此,机器学习在运营自动化中的关键作用逐渐清晰。
大量历史运维数据结合有监督的机器学习算法可以通过训练检测到常见问题(例如,网络性能降低)并触发例行应对机制(例如,网络扩容)。算法的持续校正可以提高模式匹配的准确性,也可以提高我们建立预测运维的信心。在预测性运维环境中,模型会提前数周、数天、数小时预测网络或业务问题,从而让我们有足够的时间采取措施纠正。
无监督学习算法在如何分类或标注方面无相应培训,而是在预测结果之前,采用分组或集群来组织数据了解隐含的结构和模式。强化学习是指机器学习算法执行单个操作并接受操作评价,并根据反馈校准执行下一步动作。在以上三种机器学习范例中,有监督的机器学习是最广泛使用的技术,它需要数据科学家来设置并不断校准这些算法。所有这三种机器学习技术都有望在实现全面运营自动化过程中发挥关键作用。
机器学习增强了拥有学习能力的分析模型,并提供了持续增强模型智能化的基本机制。例如,将基于机器学习的分析模型应用于部分自动化流程,这就为模型校准提供了极好的机会。使用监督和增强的机器学习方法,操作人员可以调整分析模型,因为他们可以在执行工作流时做出决策。
随着我们在机器学习主导自动化的信心增长,我们就可以把无人监督的机器学习模型逐步引入自动化工作流,将CSPs带入AI主导的运营领域。无监督学习模型的自学习和自校准性质不断调整自身以提高操作决策的准确性。
结论和建议
我们电信行业正处在一个关键时刻:电信运营商未来的成功将取决于他们能否成功转型为数字化服务供应商。为实现这一目标,运营商必须用自动化和智能化实现的自主运维模式取代具有高度重复性手工流程的烟囱式运维模式。运维人员必须给予支持,借助统一监控,分析和机器学习支持的运维平台创建并延续自动化运为流程。自主运维不仅具备支持现有物理基础设施和服务的能力,而且随着运营商部署NFV,IoT和5G等新技术、新业务不断做出调整。
我们必须学习其他行业,尤其是像谷歌和亚马逊这样成功的数字化企业,去大胆接受那些对其成功有贡献的想法。转维运营不是一蹴而就的。运营商需要支持并实现持续的增量自动化和智能化,以获得直接收益,同时支持更广泛的转型之旅。