当前位置:首页 > 公众号精选 > 架构师社区
[导读]互联网业务往往使用MySQL数据库作为后台存储,存储引擎使用InnoDB。我们针对互联网自身业务特点及MySQL数据库特性,讲述在具体业务场景中如何设计表和分表。本文从介绍MySQL相关基础架构设计入手,并结合企业实际案例介绍分表和索引的设计实战技巧。

互联网业务往往使用MySQL数据库作为后台存储,存储引擎使用InnoDB。我们针对互联网自身业务特点及MySQL数据库特性,讲述在具体业务场景中如何设计表和分表。本文从介绍MySQL相关基础架构设计入手,并结合企业实际案例介绍分表和索引的设计实战技巧。


万亿级企业MySQL海量存储分库分表设计实践

-    01、什么是InnoDB记录存储方式?     -


大家都知道在InnoDB存储引擎中记录是按主键顺序存储,并且依靠这个特性为表创建了主键聚簇索引。


InnoDB是如何实现记录“顺序存储”的呢?首先要知道“顺序”分页内顺序和页间顺序,页为InnoDB内外存交换的基本单位。


页间顺序:磁盘文件中页与页之间使用双向链表连接,页间有可能是物理有序。大多数情况是逻辑上的有序;


页内顺序:页内各记录使用单项链表把记录连接起来,所以页内是逻辑有序,配合slot数据结构实现页内接近二分查找的查询效率。


图1为InnoDB页内空间分布:


万亿级企业MySQL海量存储分库分表设计实践

图1 Page Header


根据以上特点,我们来分析下使用不同的主键对存储会造成哪些影响:


自增主键:主键值递增,数据是顺序插入的,所以在页内数据物理连续,写满一页后在顺序分配下一页。在没有删除操作的情况下,整个表的记录在磁盘文件中都是按照写入顺序连续存储的。这中存储方式磁盘利用率非常高,且随机IO很低。插入效率相当高。


业务主键:比如用户表使用uid做主键,商品表使用infoId做主键,这种有意义的主键,我们称为业务主键。很明显,业务主键不但无法做到记录物理连续而且在插入数据时还可能造成页的分裂,从而导致页内碎片,例如如果一个页空间已满,存储主键值0~99,100条数据,如果要插入55这条记录,页内已经放不下,需要分裂成两个页才能完成插入操作,而分裂后的两个页很难被写满,会造成页内碎片,所以业务主键在写入性能和磁盘利用率上都不如自增主键。


通过上面的分析,我们是不是可以得出结论:使用自增主键一定好呢?在我们分析完InnoDB的索引以前,现在下结论还有些早。


万亿级企业MySQL海量存储分库分表设计实践

-      02、什么是主键索引?     -


InnoDB会自动在表的主键上创建索引,数据结构使用B+Tree。根据存储上的特点主键索引也被称为聚簇索引。聚簇索引的索引结构和实际数据是存储在一起的,B+Tree叶子节点存储的就是实际的记录,如图2所示:


万亿级企业MySQL海量存储分库分表设计实践

图2 聚簇索引


万亿级企业MySQL海量存储分库分表设计实践

-      03、什么是非主键索引?     -


既然记录存储在主键索引结构中,那么在其他列创建的索引是如何找到记录的呢?我们可以很自然的想到,非主键列上的索引可以先通过自身索引结构查找到主键值,然后在用主键值在聚簇索引上找到相应的记录。InnoDB就是这么做的,所以我们也称非主键列上的索引为二级索引(因为一次查询需要查找两个索引树)


二级索引有以下特点:

1、除了主键索引以外的索引;

2、索引结构叶子节点中的Data是主键值;

3、一次查询需要查找自身和主键两个索引;


万亿级企业MySQL海量存储分库分表设计实践

-      04、什么是联合索引?     -


联合索引也叫多列索引,索引结构的key包含多个字段,排序时先第一列比较,如果相同再按第二列比较,以此类推。联合索引结构图如图3所示:

万亿级企业MySQL海量存储分库分表设计实践

图3 联合索引


联合索引上的查询要满足以下特点:

1、key按照最左开始查找,否则无法使用索引;

2、跳过中间列,会导致后面的列不能使用索引;

3、某列使用范围查询是,后面的列不能使用索引。

根据前缀索引特性,联合索引(a,b,c),可以满足(a),(a,b),(a,b,c)三种查询。


万亿级企业MySQL海量存储分库分表设计实践

-      05、小结    -


了解了InnoDB的索引后,我们再来分析自增主键和业务主键优缺点:

自增主键:写入、查询效率和磁盘利用率都高,但每次查询都需要两级索引,因为线上业务不会有直接使用主键列的查询。


业务主键:写入、查询效率和磁盘利用率都低,但可以使用一级索引,依赖覆盖索引的特性,某些情况下在非主键索引上也可以实现1次索引完成查询(后面的案例中会详细介绍)。


自增主键相对业务主键在IO效率上优势在SSD硬盘下几乎可以忽略,而在业务查询性能上业务主键有明显优势,所以在业务数据库中,我们使用的都是业务主键。


万亿级企业MySQL海量存储分库分表设计实践

-      06、电商业务分表设计与实践    -


针对MyQL数据库特性结合自身业务特点制定了一系列数据库使用规范,可以有效的指导一线RD在项目开发过程中数据库表和索引的设计工作。下面介绍电商业务中表和索引的重点设计原则以及两个实际案例


1、表设计原则

主键选择:前面我们已经对比分析过业务主键和自增主键的优缺点,结论是业务主键更符合业务的查询需求,而互联网业务大多都符合读多写少的特性,所以所有线上业务都使用业务主键;


索引个数:由于过多的索引会造成索引文件过大,所以要求索引数不多于5个;


列类型选择:通常越小、越简单越好,例如:BOOL字段统一使用TINYINT,枚举字段统一使用TINYINT,交易金额统一使用LONG。因为BOOL和枚举类型使用TINYINT可以很方便的扩展,针对金额数据,虽然InnoDB提供了支持精确计算的DECIMAL类型,但DECIMAL是存储类型不是数据类型,不支持CPU原声计算,效率会低一些,所以我们简单处理将小数转换为整数用LONG存储。


分表策略:首先要明确数据库出现性能问题一般在数据量到达一定程度后!所以要求我们提前做好预估,不要等需要拆分时再拆,一般把表的数据量控制在千万级别;常用分表策略有两种:按key取模,读写均匀;按时间分,冷热数据明确;


2、实际案例

案例一:用户表设计

用户表包含字段:uid,nickname,mobile,addr,image…..,switch;

uid为主键,业务上有按uid和mobile两种查询需求,所以要在moblie上创建索引。


switch列比较特殊,类型为BIGINT,用来保存用户的BOOL类型的属性,每一位可以保存用户的一个属性,例如我们用第一位保存是否接收推送,第二位保存是否保存离线消息等等。


这种设计有很高的扩展性(因为BIGINT有64位,可以保存64个状态,一般情况很难用满),但是同时也带来一些问题,switch有很高的查询频率。由于InnoDB是行存储,要找查询switch需要把正行数据取出来。

这对上述场景,我们在表设计上可以做哪些优化呢?常用的方案是把表垂直查分,这种很常见我们不做过多讨论。


还有一种方案我们可以利用InnoDB覆盖索引的特性,在uid和switch两列上创建联合索引,这样在二级索引上包含uid和switch两列的值,这样用uid查询switch时,只通过二级所以就能找到switch,不需要访问记录,甚至不需要到二级索引的叶子节点就可以找到要查询的switch值,查询效率非常高。


另外有一点需要考虑,可以想象switch的变更也是相当频繁的,switch值得改变会导致联合索引的变更吗(这里的变更指索引节点分裂或顺序调整)?


答案是不会!因为联合索引的第一列uid是唯一且不会变的,所以uid就已经决定了索引的顺序,switch列的改变只会改变索引节点上第二个key的值,不会改变索引结构。


案例二:IM子系统分表方案

IM子系统包含:用户、联系人、云消息、系统消息四个主要的业务表。数据库按业务拆分,每个业务使用单独的实例。除系统消息表外,其他表都是以uid做key按128取模分了128个表。由于系统消息的业务比较特殊,所以其分表方案与其他业务不太一样。


我们先来了解下系统消息的业务特点:系统消息表保存的是服务器发出通知类型的消息,既然是通知,就会有实效性,我们规定系统消息有效期为30天,所以针对以上特点我们采取如下分表方案:

按月对系统消息表进行分表,每个月的数据又分为128个表。


大家思考一个问题:

查询一个人的系统消息时,由于是按月分表,而大多数查询都是跨月的(因为需要查找30天内的消息),所以需要两次数据库交互。是否可以优化呢?


我们可以冗余存储,具体优化方案如下:

1、插入系统消息时写当前月和上个月两个表;

2、读从上一个月开始读;

如图4所示:

万亿级企业MySQL海量存储分库分表设计实践

图4 冗余存储方式


这个方案我们可以保证一次查询可以找到用户所有有效期内的系统消息,但是通过牺牲了存储空间和写入效率换取的,不一定是最优的方案,但在总数据量不大,且比较注重查询性能的业务场景下还是可以选用的。


万亿级企业MySQL海量存储分库分表设计实践

-     07、总结     -


1、自增主键性能不一定高,需要结合实际业务场景做分析;

2、大多数场景数据类型选择上尽量使用简单的类型;

3、索引不是越多越好,太多的索引会导致过大的索引文件;

4、如果要查询的数据可以在索引文件中找到,存储引擎就不会查找主键索引访问实际记录。

特别推荐一个分享架构+算法的优质内容,还没关注的小伙伴,可以长按关注一下:

万亿级企业MySQL海量存储分库分表设计实践

万亿级企业MySQL海量存储分库分表设计实践

万亿级企业MySQL海量存储分库分表设计实践

长按订阅更多精彩▼

万亿级企业MySQL海量存储分库分表设计实践

如有收获,点个在看,诚挚感谢

免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭