专访必示科技CEO刘大鹏:智能运维是不可避免的大趋势
扫描二维码
随时随地手机看文章
记者(公众号:记者)按:越是传统的行业,在被人工智能改造时,所迸发出来的潜力就越大。从某种程度上看,这句话是完全成立的,经过多轮新技术仍旧没有完全进化的行业,往往有着很坚固的改造壁垒,相对应的,一旦遇到适用于该行业的新技术,技术断代所积累的潜力也将一并爆发。伴随最初的IT而兴起的运维行业,似乎正打开智能化的大门。
智能运维行业的现状是——搞机器学习的人很难迅速了解智能运维的知识和场景,比如各类监控数据,要梳理很长时间才能理解;搞运维的人又很难把机器学习吃透,两者之间存在一个巨大的鸿沟。
纯粹从人工智能算法方向切入的智能运维产品的提供商在国内还属于少数派,新技术的诞生期走的总是“高大上”路线,运维这一传统行业还未到广泛拥抱人工智能的爆发期,但先行者已经着手。
近日,必示科技发布了国内首款多场景、可编排智能运维平台——必示智能运维平台。今年年初,必示科技完成数千万人民币A轮融资,顺为资本领投,老股东明势资本跟投;时隔数月,必示在6月又完成了由高榕资本领投,东方富海以及老股东顺为资本、明势资本跟投的数千万人民币的A+轮融资。
众多一线投资人的态度显示了资本对于必示科技以及智能运维赛道的看好,智能运维成为当前人工智能落地的又一希望之地。关于智能运维以及必示科技的发展,记者就此话题采访了必示科技CEO刘大鹏。
运维发展的三个阶段对于任何一家现代企业,运维都是必不可少的一部分,甚至小到修电脑(服务器),大到支撑千万DAU应用、十万级服务器的业务稳定,都是运维的工作范畴。
运维行业的整体发展大致经历三个阶段:
手工运维:初级运维方法,所有决策和操作都由人工完成,低效、重复、易出错;
自动化运维:通过脚本化提高操作效率,但仍需人工分析海量数据,决策速度慢、不准确、耗人力;
智能运维 AIOps:利用AI算法分析海量运维数据,自动、准确发现和定位问题,从决策层面进一步提高运维效率。
刘大鹏表示,运维的确是一个很传统的行业,所有的企业只要有IT的软件和硬件,就会有运维需求,关于智能运维的讨论逐渐火热,实际上也是因为运维行业随着底层IT基础架构、软件规模量级的提高,原来的运维方式越来越难以支撑,所以开始出现智能运维的概念。
从2016年开始,行业开始探索智能运维,运维行业的数据分析起步较早,但当时还没有严格意义上智能运维的概念,随着人工智能被行业接受,Gartner提出AIOps后智能运维成为行业统一术语。
运维监控的项目繁多,监控难以精准。另外发生事故后,如何定位问题,上万台服务器,几千个软件模块,互相之间的大量访问数据,管理员越来越难以做到事事细化。
举例来看,监控一家企业底层IT软件、硬件状态,每天需要收集监控数据,一家大型一点的金融机构基本上会有10个TB左右数据,这仅仅是一天,如此量级的数据人力已经很难对数据本身做细致分析,时效性和准确性都不足以支撑。有的时候甚至可能系统出了问题,但运维人员还没有反应过来。
因此,企业使用人工智能进行IT运维(AIOps),以增强和偶尔地替代传统的应用程序性能监视(APM)和网络性能监视和诊断工具(NPMD),成为新尝试。有数据显示,全球APM市场规模大约在60亿美元左右,预计在五年内达到90亿美元。Gartner报告显示,2019年NPMD预估的市场规模为22亿美元,复合年增长率为1.8%。
但参考AIOps的市场规模,并不是和这两部分工具重合,而是要看整个传统运维市场,以及人工智能应用的市场价值,难以准确测算。
“一般不太有人会选运维行业作为创业方向,听到之后就觉得很苦、很累,甚至很多外部的人可能会听到运维觉得这个属于技术链条比较偏下游的,大家会有这样的一些误解”,刘大鹏谈到。
必示科技之所以选择做AIOps与创始团队背景有很大关系,必示科技主要创始团队均来自于清华智能运维实验室,从学术到实践,是技术演进的自然过程,据了解,必示有10位智能运维方向的博士,十几位经验在10年以上行业资深专家,有50%的成员来自清华大学。
AIOps的催化剂运维行业如此之“固执”,为何现在是运维行业智能化的契机?
以银行系统为例,刘大鹏表示,首先从外部环境角度,用户量、交易量、业务种类、还有用户体验要求的提高,导致银行内部的系统必须要变得越来越庞大、灵活,以支撑外部环境的变化。
第二个方面,随着最近几年银行,包括其他行业如运营商、电网等,IT监控越来越普及,相比之前,监控系统还没做得特别好,数据量也少,做运维没有更好的方法。
监控系统越来越完善之后,数据量很大,但是数据反而成为无法处理的新问题,企业思考的维度自然演化——怎么让花费大量资源建设的监控系统,所收集的大量数据真正发挥价值?
自动分析数据的需求涌现,自然而然就演进出了智能运维行业。
刘大鹏以应急处理为例,当金融企业的内部系统出现问题,比如用户交易失败,或者用户交易开始变慢等告警情况。
第一步,针对这家金融机构的业务系统大量交易指标做检测,包括不同系统的交易量、响应时间、用户的成功率等指标。看起来只有几个指标,但实际上银行的业务系统非常多,每个不同的交易类型展开后就是成千上万个,再乘以这些指标种类,数据量异常巨大,而且这些指标会随着业务而变化。
在这个阶段,靠人力制定一个简单规则无法适配几万种形态各异的指标,必示科技在业内第一个推出产品,针对时序数据做准确的检测,而且可以适配金融行业内常见的各种情况,检测准确率基本能达到90%以上。
第二步,传统业务报警之后,运维人员会收到一条短信,但也仅此而已,没有任何额外信息。业务报警时经常伴随的情况是,网络,服务器,数据库,应用系统等各条线,所有团队都要开始排查与自己相关的部分。每条线排查量很大,而且没有任何指向性,全凭经验,短则几十分钟,长则十数小时或几天。
“解决问题很快,但是找原因很慢。这个过程面对的是海量数据,能不能经过一些算法处理,把最有嫌疑的数据量找出来,管理员会更有聚焦性,再结合领域知识,可能会很快定位一些问题。出现问题之后的自动定位和推荐方法,这也是智能运维的典型场景”,刘大鹏介绍道。
智能运维的错位竞争各行各业的运维都有一定的基础,必示科技补足的是运维行业的数据分析能力
必示科技的前身,清华智能运维实验室从2012年即开始研究智能运维课题,彼时即便像BAT尚且没有智能运维的理念,更多的是单一数据的规则化分析,而不是系统化把运维数据分析单独抽象出一层做研究。
“运维场景很多,很难去单点的做。而且涉及到很多算法和领域知识的结合。传统运维行业中的人员构成基本上百分之百都是运维工程师,软件工程师。这些人都很厉害,他们能驾驭很大型的系统,做很强壮的海量数据的监控和收集。但是有一个问题,这类工程型专家的知识库和技能集和智能运维所要求的技能是不一致的”。
必示智能运维平台
这种困难也体现在算法层面,难点主要有二,第一是对数据分析型问题的定义,问题的拆解、梳理、定义;第二是针对具体问题的算法设计。
在一个未知开放的环境下,定义问题是困难的第一步,算法工程师既要对运维有很深的了解,同时又对算法能力有广泛积累,才能做好架构的拆解,问题的梳理和定义。
大量的机器学习算法在提出时,并不是针对运维场景,这些开源算法的假设并不和实际运维问题相符,实际效果也并不好,运维算法研究实际上是以开源算法为起点,结合实际运维问题和数据的特点,进行不断的算法改进和方案组合的创新过程。
刘大鹏解释道,智能运维本质是数据分析,从业人员至少要知道常见的数据分析方法。比如说关于文本、关于时序数据等,同时还要熟悉运维场景。运维行业有很高的领域知识门槛,纯做AI的人创业做一家智能运维公司,基本不存在这种情况。
“我们要找到运维行业中,现有AI技术能力范围内可以解决的问题,它一定是定义的很清楚,它的数据是充足的,运维中的问题拆得非常非常细,故障定位我们可能会拆成10多个场景,每一个场景都是相对来说比较具体的”,刘大鹏指出了运维行业的目前发力方向。
另外,刘大鹏也清晰的指出,并不是所有运维问题都适合用AI解决,某些问题与其花费精力用AI算法去推断,不如把数据监控、自动化系统完善,解决问题更简单高效。