“腾百万”之后,腾讯的云操作系统VStation单集群调度达10万台
扫描二维码
随时随地手机看文章
今年5月,腾讯全网服务器总量迈过100万台里程碑,成为中国首家服务器总量超过百万的公司,也是全球五家服务器数量过百万的公司之一。同时,今年腾讯的带宽峰值也突破100T。
而在近期,腾讯云又宣布自研的云计算操作系统VStation已经实现在单集群内调度超过10万台服务器,成为业界首个达到此项能力的云厂商。
记者了解到,Vstation是腾讯自研的云计算操作系统,起始于2012年,从那时起,就被部署到腾讯云分布在全球的地域里面(到今天25个地域、53个数据中心),要解决的就是大规模服务器资源调度问题。
不过,Vstation比较复杂,与其他操作系统类似,需要很多分布式组件来实现协同和统一。
一直以来,计算资源的调度与管理能力,以及服务器的虚拟化是云计算的关键基础技术。云计算是一个非常大的平台,其本质是把物理服务器做了集合与共享,对传统IT基础设施做了优化。
之所以调度显得如此重要,主要在于规模带来的复杂度的提升。
腾讯云云服务器产品负责人李力谈到,举例来看,如果一个人只有一台电脑不需要调度,如果有两台电脑就感觉有点麻烦了,有一个切换的困扰,距离它的存储更近,业务更近,整个的资源分配最合理。
云计算调度也一样,一个运维管十台机器和管一百台机器是完全不同的,这是一个复杂度持续上升的过程。
我们首先解决的第一个问题是如何将成千上万台的服务器的管理做到像管理一台那么简单。
其言下之意是操作不当会导致客户很难快速获得相应的IT的能力。
基于这个初衷,Vstation顺势而出。
记者(公众号:记者)注意到,尤其是对于腾讯本身来说,1999年做QQ(1台服务器),2005年做QQ空间(5000台服务器),2010年推出微信(超10万台服务器),2011年推出腾讯视频(超20万台服务器),都掐住了互联网发展的最佳节点,在这样的过程中,其内需的服务器规模一直在增长。
用李力的话来说,2013年当腾讯云正式成立时,服务器数量已经超过40万台,整个腾讯的计算规模是以指数级的指标在往上走。
Vstation具备的主要能力有三个:自主研发、安全可控;高可用高并发;支持异构硬件,支持物理机。
某种程度上看,用户对云服务器的需求有点超出了云本身应该做的范围。当面向产业互联网的客户时,腾讯云在Vstation之上又增加了黑石物理计算的支持,这样“云服务器、物理服务器都变成客户的资产”。
据李力介绍,从第一行代码开始,他们就完全按照腾讯的高规格要求去做的安全可控的操作系统,适配高可用、高并发的需求。腾讯的业务都是一级的用户,在腾讯的内部,他们所有的业务要求都非常严格,不容出错——这意味着,Vstation的起点也比较高。
目前,腾讯云VStation已经部署在腾讯云遍布全球的数据中心中,支持数万台虚拟机分钟级别创建,并可以在十款不同硬件中协同操作。
怎么体现 VStation 的价值?
李力表示,云服务器是完全对物理服务器的抽象,以前在控制台上去创建一台云服务器,要经历多个技术模块,创建耗时5分钟到10分钟。腾讯云在设计 VStation之初就让其肩负着大规模调度、海量并发和支持异构计算的历史使命,在做了深度优化之后,Vstation创建一台云服务器只需要5到10秒,在并发的场景上,如果有一个用户需要业务扩容1000台服务器,腾讯云可以在30秒到60秒之内完成,这意味着一个中等偏大的公司整体的计算资源的需求可以在腾讯云上1分钟得到交付。
关于“秒级计费”,记者注意到,2013年的时候,腾讯云就支持了秒级计费,这个能力是同行在几年之后才开始支持的。这种收费方式的好处是能够更好支撑企业大规模计算部署需求,并有效降低突发性业务的计算成本支出。
为何腾讯全网服务器数量达到100万台而单集群内VStation只能调度超过10万台服务器?李力就此进行了答疑。他表示:
这里还是强调“单集群”,腾讯在云计算的单集群里面还是十万台的规模,在单集群的规模里面短时间之内也不会达到百万台。云有分区的属性,不太可能在一个地方搞太大。
在未来计划上,李力表示,VStation会维持十万、数十万的单集群调度服务器规模,往海外部署,通过技术上的EC点和OC点往国内中小城市延展(只不过集群规模会越来越小,中心区的集群规模是最大的)。
可以看到,早期的电商、游戏、视频甚至一些金融的客户给了腾讯不小的机会,使得腾讯云能够迅速做起来,而到了传统行业开始数字化的当下,虽然其对云接受相对比较慢,但是计算量要求却是非常巨大,加上政府、央企等大客户要上云,这给今天的腾讯带来了新的挑战,但同时也催生了挣钱的新机会。