当前位置:首页 > 公众号精选 > 架构师社区
[导读]作者 l 会点代码的大叔(CodeDaShu)    有一道流传广泛的面试题: 给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序? 让我们先算算 20 亿个整数会占用多大的内存空间,J

20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap

作者 l 会点代码的大叔(CodeDaShu)


有一道流传广泛的面试题:


给你一台 4G 内存的机器,一组 20 亿个无序正整数,如何快速地判断一个正整数 N 是否在这组数字中?或者如何快速地对这组数据排重后排序?


让我们先算算 20 亿个整数会占用多大的内存空间,Java 的 int 类型占用 4 个字节,那么 20 亿 * 4 再换算成 G 大约是 7.5G,大于题目中 4G 内存的限制,无法一次性地放到内存中;


这时候有些伙伴会说:“把数据放到磁盘上,然后分批将数据读取到内存中就行查询”,但是这种方法会导致多次磁盘 IO,而且只能解决第一个查找的问题,排序就没有办法做到了。



01

BitMap 的概念



BitMap 能够很好地解决这个问题;它是用一个 Bit 位来标记某个元素对应的 Value, 而 Key 即是该元素,比如我们初始化一个类型为 bit、长度为 8 的数组,数组下标 0-7,数组中的内容 1 表示存在,0 表示不存在,那么:


00000001 下标为 0 的位置,对应值是1,那么表示 0;同理:

00000010 表示 1;

00000100 表示 2;

00001000 表示 3;

...

10000000 表示 7;


如果一组数据 {2,3,4,7} 放到同一个数组中的话,就是 10011100:


如果按照 int 数组存储,{2,3,4,7} 需要 4 * 4 * 8 个 bit 才能存储的数据,但是现在 BitMap 只需要 8 个 bit 就可以存储,很大地节省了存储空间,并且排重后的排序也变的非常简单了;如果用 byte 实现的话,只需要 1 个 byte 就可以(1 byte = 8 bits)。


如果增加了一个数字 10 呢,那么 1 个 byte 就不够了:



02

数据结构及初始化



我们可以得知,BitMap 的容量大小取决于最大的那个数值,比如要存储 {2,3,4,7,10}:


  • 如果用 bit 数组实现(假如有的话),那么需要 10 + 1 个长度;

  • 如果是用 byte 数组实现,那么需要 10/8 + 1 个长度;

  • 如果是用 int 数组实现,那么就需要 10/32 + 1 个长度(1 个 int 等于 4 个 bytes,等于 32 个 bits);


明白了这点之后,一个简单的 BitMap 数据结构也就可以确定了:


public class BitMap { //数据 private byte[] bits;  //最大值 private int max_value; //容量 private int capacity;  /** * 初始化 * @param capacity */ public BitMap(int max_value){ this.max_value = max_value; //1bit存储8个数据,存储最大值为 max_value 的数组需要 max_value/8+1 个 byte,除以8就是右移3位 this.capacity = (max_value >> 3 ) + 1; bits = new byte[capacity]; }}



03

添加数据



添加数据,需要快速地定位到这个元素要存到整个数组中的哪个位置,这里有两个概念:


索引号 index:数据保存在整个数组的哪个下标中;


位置号 position:数据在这个下标元素的哪个位置;


比如 10 保存在 index = 1,position = 2(从 0 开始) 这个位置中,经推算可得:


index = N / 8position = N % 8


知道了 10 保存的位置之后,怎么把对应位置的数据更改成 1 呢?可以用“位或”运算。将 10 添加到 BitMap 中的完整步骤如下:


  • 计算 index = 10/8 = 1 ;

  • 计算 position = 10%8 = 2 ;

  • 将 byte[1] 的数据与 0000100 做“位或”运算,其中 0000100 是通过对 1 左移 2 得到。


完整的代码如下:


public void add(int num){ //数据保存在整个数组的哪个下标中 int index = num / 8; //数据在这个下标元素的哪个位置 int position = num % 8;  bits[index] |= 1<}



04

判断数字是否存在



知道了如何判断数字的索引号和位置号之后,判断数字是否存在也就容易了,直接使用“位与”运算,代码如下:


public boolean contains(int num){ if(num > max_value){ return false; } //数据保存在整个数组的哪个下标中 int index = num / 8; //数据在这个下标元素的哪个位置 int position = num % 8; return (bits[index] & 1<0;}


05

测试



让我们做一下测试吧:


public class BitMapTest { public static void main(String[] agrs){ BitMap bm = new BitMap(100);  bm.add(1); bm.add(12); bm.add(14); bm.add(51); bm.add(71); bm.add(100);  System.out.println("12:" + (bm.contains(12)?"存在":"不存在")); System.out.println("13:" + (bm.contains(13)?"存在":"不存在")); System.out.println("51:" + (bm.contains(51)?"存在":"不存在")); System.out.println("66:" + (bm.contains(66)?"存在":"不存在")); System.out.println("100:" + (bm.contains(100)?"存在":"不存在")); }}


运行结果:


12:存在13:不存在51:存在66:不存在100:存在


从结果可以看到,判断的都很准确,当然这只是一个最简单的BitMap实现,它还存在着很多问题,比如我们必须知道数据中最大的那个数字是多少,这个可以采用动态扩容的方式解决;


在 JDK 中,已经有对应实现的数据结构类 java.util.BitSet,我们可以不用强撸 BitMap,直接使用 BitSet 就好了,或者使用谷歌封装的 EWAHCompressedBitmap


06

优缺点



优点:

  • 占用内存空间低,可以极大地节约空间;

  • 运算效率高,查找、去重都不需要遍历全部数据;


缺点:

  • 所有的数据不能重复,相当于直接就是排重过的;

  • 如果数据只有两个:1 和 10000000,使用 BitMap 得不偿失,只有当数据比较密集时才有优势。


本章节介绍了 BitMap 的概念和基本实现,后续会介绍 BitMap 在实际开发中的应用。


特别推荐一个分享架构+算法的优质内容,还没关注的小伙伴,可以长按关注一下:

20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap

20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap

20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap

长按订阅更多精彩▼

20 亿个数字在 4G 内存中如何去重排序:快来试一试 BitMap

如有收获,点个在看,诚挚感谢


免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭