揭秘腾讯大数据十年发展历程:从关系型数据库到分布式机器学习
扫描二维码
随时随地手机看文章
10月18日消息,近日,腾讯大数据团队详细披露了腾讯大数据十年发展历程,并全面展示了腾讯第三代全栈机器学习平台Angel在大模型数据训练、深度学习、图计算等方面的技术能力。
据腾讯大数据负责人刘煜宏介绍,腾讯大数据从2009年开始, 经历离线计算、实时计算与机器学习三个阶段,2009年之前,腾讯主要使用传统的关系型数据库。2009年开始,传统的单机数据库所提供的服务,在系统可扩展性、性价比方面已不再适用腾讯业务爆发式的增长。面对这种变化,腾讯大数据转向分布式,基于开源的Hadoop体系,构建了腾讯第一代大数据平台,并建设离线计算平台,主要发力规模化。腾讯大数据由此进入第一阶段。三年里,腾讯实现了从关系型数据库到自建大数据平台的全面迁移,到2012年,腾讯大数据的单集群规模突破了4400台。
2012年,移动互联网爆发,应对业务数据统计及时性、快速性的需求,腾讯大数据从Hadoop转向Spark和Storm体系,在吸收开源技术的基础上,结合腾讯自身的需求进行重写,探索流式计算、秒级采集系统的建设,构建企业级的实时数据分析体系,腾讯大数据发展进入第二阶段。
2015年至今,腾讯大数据迈入了第三阶段。随着数据挖掘、数据应用的深入,腾讯大数据再次自我迭代,于2016年推出了自研机器学习平台Angel,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等AI应用场景。它由腾讯与北京大学联合研发,兼顾了工业界的高可用性和学术界的创新性。
据腾讯Angel开发负责人肖品介绍,腾讯Angel从腾讯海量业务场景中而来,是超大样本和超高维度的机器学习平台。如今,Angel已在QQ、微信支付、腾讯广告、腾讯视频等腾讯旗下产品中广泛应用,并向微众银行等行业合作伙伴全面开放,普遍适用于智能推荐、金融风险评估等图计算业务场景。
2017年,腾讯Angel就正式开源。2018年8月,腾讯将Angel捐赠给Linux旗下专注人工智能的LF AI基金会,结合基金会成熟的运营,全面升级的 Angel与国际开源社区深入互动,致力于让机器学习技术更易于上手研究及应用。