鹅厂存储往事
扫描二维码
随时随地手机看文章
▉ QZone告急,临危受命
2005年,是中国第二次互联网浪潮的发始之年。刚刚从破碎泡沫中走出的互联网产业,逐渐迎来了“web 2.0”时代。
这个时代的特征,就是去中心化、开放和共享。
越来越多的互联网用户,开始以兴趣为聚合点,组成社群,分享生活,发表观点。他们积极参与话题讨论,渴望获得关注和认同。
在这样的背景下,社交网络应用开始迅速崛起。最具代表性的,就是腾讯推出的QQ空间(QZone)。
QQ空间,作为“展示自我和与他人互动的平台”,推出之后获得了极好的反馈,用户数量快速增长,平台活跃度不断攀升。
根据当时的数据统计,QQ空间上线的3个季度,注册用户数就突破了5000万,月活跃用户数约2300万,日访问人数超过1300万。
用户数量的增长,意味着内容的增长。当时,用户在QQ空间上传的海量图片、文件、头像等UGC数据,对腾讯的存储能力提出了巨大的考验。
当时的腾讯,并没有统一的存储产品和技术平台,各个业务部门都是自建存储系统,自给自足。
这种方式,对于QQ空间这种爆款产品来说,显然是无法满足要求。它带来的直接后果就是,空间开启速度越来越慢,用户体验越来越差,投诉也越来越多。
当时,业务团队购买存储服务器的速度,根本赶不上用户增长的速度。
最典型的例子,就是那时候QQ空间只允许所有用户每天上传800万张图片,只有黄钻用户才可以无限上传。
与此同时,竞争对手窥觑QQ空间的业务增长,很快推出了相应的竞品,意图趁机抢夺用户。
内忧外患之下,一支新成立的年轻团队站了出来,勇挑重担。
这个团队,就是后来被誉为腾讯公司内部“黄埔军校”的存储技术团队。团队的首任组长,就是现在的集团副总裁姚星。
团队成立之后的首要任务,就是解决QQ空间发展所带来的存储瓶颈问题。
当时,面对海量数据存储的难题,不仅是国内,就连海外也没有什么可供参考的成熟经验。唯一可供存储技术团队借鉴的,就是此前谷歌公司发表的那几篇关于BigTable、GFS和MapReduce的论文。
如果稍微了解一点大数据知识,就会知道,这几篇论文是海量数据存储技术的经典之作。谷歌作为一家搜索引擎公司,当时的主要目的,是从昂贵的企业级存储转向大规模廉价分布式存储,以更低的成本,满足搜索引擎业务的需求。
这个目的,显然和腾讯存储技术团队是一致的。
借鉴经验之后,也是团队成立的第二年,他们就上线了自主研发的TFS存储系统,全面接管了QQ空间的相册业务。
TFS系统上线之后,虽然缓解了业务部门的存储压力,但并没有彻底解决问题。当时,系统仍然会出现比较高的延迟,影响用户的体验。
高延时的原因,主要是因为相册业务和搜索引擎业务之间存在区别。相册业务中,图片的数据体量更小,索引密集度更高,所以难度更大,完全照搬搜索引擎模式并不可行。
于是,存储技术团队在TFS系统基础上进行持续改进,推出了适合不同图片存储场景的系统。其中包括支持实时回收的CTFS系统、基于HDD的键值对TDB存储平台等。
终于,在持续的改进下,存储技术团队彻底解决了QQ空间的存储瓶颈问题。
2009年,QQ空间成为排在网络游戏之后的腾讯第二大收入贡献部门,并且获得了该年度的腾讯合作文化奖。
这个成绩的背后,存储技术团队功不可没。
2009年腾讯存储技术团队合影
2009年,SNS游戏QQ农场正式推出,掀起了全民偷菜的热潮。当时,农场的访问量巨大,在每秒数万的并发访问下,腾讯的底层存储系统的延时和请求吞吐压力非常大,服务器数度崩溃。
当时的腾讯,基本上把公司所有闲置服务器都用在QQ农场上,但仍远远不够,需要大量采购服务器。
存储技术团队一方面疯狂扩容设备,另一方面基于数据规模不太大但是访问量极高的业务特点,快速研发了全内存的分布式存储系统。在保障数据安全可靠的前提下,系统的并发访问性能得到极大提升。
快速上线、快速验证、完全自研,存储技术团队“hold”住了局面,再立大功。
第一阶段使命的完成,使得存储技术团队积累了丰富的经验。团队成员的架构设计能力和开发能力也得到了充分的锻炼。
很快,他们又迎来了一项新的挑战。这次遇到的,是带宽问题。
2011年,在QQ相册等大体量业务快速增长的刺激下,腾讯的数据存储量达到了50PB。
这是一个标志性的事件。
当时,腾讯所有的数据中心都在深圳。那时候骨干网络的带宽很小,QQ相册高峰时占用40-50Gbps,而1G的流量对公司的网络就已经是很大的负担了。
于是,腾讯必须将海量的业务数据分散到全国各地,缓解访问带宽的压力,同时降低成本。
存储平台当时启动了相册一通点等项目,海量业务数据开始从深圳向西安、杭州、广州、上海等地数据迁移,访问带宽也同时调度到天津、南京、东莞等成本更低的一通机房。
当时存储技术团队搬迁的第一台设备,数据量是100TB。在现在看来,100TB并不是很大,但是当时已经是腾讯有史以来最大的一次数据搬迁了。
更让人意料之外的是,存储团队搬迁这些数据的方法,并不是通过专线(因为怕影响公司正常业务),而是通过后半夜闲时的公网出口。他们采用蚂蚁搬家式的数据迁移方法,一点一点把数据拷贝到异地数据中心。
后来,随着数据迁移工作的逐步完成,腾讯存储网络的带宽压力明显缓解,成本也得到了有效控制。
到了2015年左右,腾讯存储技术团队又迎来了一个新的问题——数据太多了。
那时候,腾讯的数据总量逐渐到了500PB的量级。随着时间的推移,此前用户上传的大量数据,都成了冷数据。所谓冷数据,就是很少去读取的数据。
这些冷数据占用了大量的存储空间,为了容灾,还进行多重备份,更加消耗资源。
于是,存储技术团队就开始做分级存储。他们优化了系统的分布式存储架构,研发BTFS平台,把数据从三副本降到1.33份的纠删存储。他们将QQ相册、微云,邮件附件等产品中的历史数据放到BTFS里面去,以此来降低存储成本。
除此之外,他们还在数据访问量不大的存储服务器上做虚拟化,利用空闲的CPU资源跑计算负载,例如图片的编解码等,充分提升资源的利用率。
在QQ空间之后,腾讯TFS系统逐渐开始为QQ、邮箱、微云等提供存储服务,成为整个腾讯的基础数据存储平台。
2013年,腾讯正式发布了微信,开启了新一轮的移动社交网络大战。微信的数据存储需求,同样依赖于TFS系统。
用户使用微信,除了文字之外,还会发送海量的图片、音频、视频,甚至红包。这些操作全部离不开对存储系统的读写。发朋友圈也是一样,背后离不开存储系统的支持。
2014年的春节,用户数快速增长的微信,以及它背后的TFS,迎来了一场载入中国互联网发展史册的大考——有史以来第一次的红包大战。这场大战当时有800万用户参与,业务团队和存储技术团队感受到了前所未有的压力。
压力最大的时刻,就是大年三十晚上12点那个时间段,数以亿计的用户会发送祝福,造成井喷级的高并发数据读写需求。如果系统能力不足以应对,就会全面崩溃,影响用户体验,损害腾讯和微信在用户心中的形象,失去用户的信赖。
为了应对这种情况,存储技术团队对系统进行了能力深度挖潜,竭尽全力将磁盘的读写能力开发到极致。与此同时,他们联合微信团队制定了各种柔性策略,开发了很多定制化的服务,也专门开发了服务于微信业务的系统。最终,他们承受住了考验,涉险过关。
后来,到了2015年春节,微信月活跃用户达到5亿,激烈的红包大战再次打响。这次,积累了丰富经验的存储技术团队胸有成竹,交上了更完美的答卷。
▉ 业务开放,发力B端
随着腾讯存储系统的不断成熟,加之2012年之后逐渐开始的云计算趋势,腾讯开始考虑将TFS存储业务面向外部开放,服务第三方业务,争夺B端企业用户市场。
初期腾讯云基于已有的存储访问接口和平台架构对外提供服务。经过一段时间的运营,腾讯云发现外部第三方业务在体验、可用性、成本等诸多运营方面有极高的要求。
因此,为支撑云的需求场景,腾讯云对存储的接入层和索引层架构进行重构,架构扁平,模块精简。同时,腾讯云存储开始舍弃私有接口,转为兼容AWS S3接口与功能。
重构后,存储架构的开放能力得到了进一步提升,支撑了腾讯云COS(Cloud Object Storage)业务近几年的发展。
在腾讯看来,对云的理解是不断加深的过程。他们认识到,仅有不错的存储平台并不够,必须深入研究各个行业的需求场景,提供功能、性能、质量和价格要求不同的服务,才能够获得用户的认可。
2017年,腾讯云的数据量突破一个EB,成为腾讯存储历史上的一个标志性节点。
为了应对未来云计算业务的挑战,腾讯存储团队开始了一个宏大的计划——启动全新的存储架构平台YottaStore的开发。
最开始的时候,存储团队内部打算给新平台取名为BlobStorage。Blob的意思是一大块连续的二进制数据,像一个视频文件就是一个Blob数据。
显然,这是大家印象中程序员的”正常操作”,但最终这个名字被确定为YottaStore。
对于做存储的同学来说,经常会跟GB、TB、PB、EB这些概念打交道。现在全球互联网巨头公司的数据量基本都是在EB这个量级。EB上面是ZB,全球互联网巨头数据加起来也就几个ZB。ZB再往上,就是YB,也就是YottaByte。目前全世界所有的数据加起来,也不超过一个YottaByte。
毫无疑问,这个名字体现了腾讯对这个系统的期待,寄予了厚望。
除了足够大之外,Yotta的中文译名是“有他”,可以给人安全可靠放心的感觉。在腾讯内部,就有“存储有他,能力无限”的说法。
YottaStore从2018年开始启动研发,2019年正式上线,完全由腾讯自主研发完成。上线同年,就获得了公司级的业务突破奖。
作为一个云存储系统,YottaStore的能力可以说是非常强悍:
集群规模
YottaStore是一个云原生的数据存储系统,这个系统的理论极限是一个集群可以管理超上千万台服务器。而要管理这上千万台的机器,元数据管理只需要用600G左右的空间,仅用一台机器就能存下索引结构,这在业界绝无仅有。
资源利用率
当集群规模非常大的时候,1%的剩余空间量都非常大。所以,YottaStore将硬盘利用率提升到很高的水平,配合实时回收机制,有效数据占比达90%以上。这在业界非常少见。
另外,由于大集群的全集群均衡能力,服务器资源使用均衡,所以资源使用率也可以做得很高。服务器硬件可以最低位配置,所有尖峰流量在这个超大的池子里,波澜不惊。
所以,无论是成本,还是服务能力,都很大程度受益于超大规模集群带来的红利。
灵活性
YottaStore单集群可以零研发成本同时支持各种不同的冗余模式,像两副本、三副本、四副本、五副本,任意的EC编码,任意的M、加任意的N、任意的算法;单AZ、双AZ、多AZ,也都可以灵活支持。
另外,整个集群可以自适应各种各样不同的机型,包括JBOD;各种硬盘介质,如磁带、HDD、SSD等,存储的拓扑结构、混合部署也都可以任意指定。
这样的灵活性在业界首屈一指。
运营能力
以存储节点迭代升级为例,十万百万规模的一个集群,上线升级速度都是一样的。如果是同构的数据格式,分钟级就可以完成整个升级过程。如果是异构的数据格式,集群可以在短时间内自动将数据格式透明收敛到最新版。
可用性
可用性达到“数个9”很容易,但是达到100%非常难。例如机房网络抖动,如果容错做的不够好,就很容易出现失败。
YottaStore开始上线大规模支撑业务的前三个月,一直维持100%的可用性。到现在一年半了,系统一直单人值周零故障运行,在业界是极少见的。
成本控制
基于前文所述的在超大规模集群和超高资源利用率上的技术突破,随着资源利用率的增高,YottaStore的单位存储成本不断降低。
磁盘容量扩大,单机磁盘数变多,密度增高,成本也随之降低。此外,CPU、网卡等新硬件的变化都会导致成本降低。
针对海量小文件的用户场景,YottaStore采用多种冗余和数据组织策略持续优化成本。
基于YottaStore存储系统的腾讯云对象存储COS平台,正在为快手、OPPO、小红书、海康、猎豹、58同城等几十多万个企业客户提供可靠的存储服务,整体数据量高达EB级别。
▉ 结语
回顾腾讯存储技术的整个发展历程,不由令人心生感慨。
15年前,腾讯存储团队成立的时候,一定不曾想到,自己会走过这么蜿蜒曲折的发展之路。
他们不会想到,自己所在的公司会推出比QQ空间更爆款的产品,自己会面对更严峻的考验。
他们不会想到,自己的使命,从服务内部,到服务外部,从服务C端,到服务B端,不断转变。
他们不会想到,自己开发的存储系统,数据体量规模竟然会从PB到EB,覆盖全球范围内30多个region,拥有上万台服务器。
他们不会想到,自己所在的团队,会成为整个公司的“黄埔”军校,走出了无数的技术专家和管理干部。
时代就是这样,前进的步伐太快,永远超出常人的想象。
能够拥有这样的成绩并非偶然。成绩的背后,既离不开他们对用户需求的精准把握,也离不开对产品性能的极致挖潜,更离不开对技术梦想的执着追求。
存储的战争还没有结束,只是进入了一个新的阶段。
未来,有新的挑战在等待着他们。也有新的机遇,在召唤着他们。再过15年,又会发生什么样的故事?不如让时间来告诉我们答案吧。
—— 全文完 ——
免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!