大数据时代必有分层存储

时间：2019-10-18 12:15:09

关键字： raid 大数据分层存储

手机看文章

扫描二维码
随时随地手机看文章

[导读] 分层存储讲述UDSAFE在“信息生命周期管理”的基础上，对数据信息的存放提出了更为科学的概念，那就是对在线数据进一步分层。之所以提出这种概念，是因为即使是在线数据，不同类型数据的数据量，访问频率也截然不同。如今，分层存储已成为了一种常见的存储方法，它将数据存储在具有不同特性(如性能、成本和容量)的不同存储介质上。不同的存储媒介被分配到不同的层次结构中，其中最高性能的存储媒介被认为是第0层或第1层，然后是第2层、第3层等等。

分层存储讲述UDSAFE在“信息生命周期管理”的基础上，对数据信息的存放提出了更为科学的概念，那就是对在线数据进一步分层。之所以提出这种概念，是因为即使是在线数据，不同类型数据的数据量，访问频率也截然不同。如今，分层存储已成为了一种常见的存储方法，它将数据存储在具有不同特性(如性能、成本和容量)的不同存储介质上。不同的存储媒介被分配到不同的层次结构中，其中最高性能的存储媒介被认为是第0层或第1层，然后是第2层、第3层等等。

0层或1层通常是由闪存或基于3D Xpoint技术的固态硬盘(SSD)组成，以此往下的存储层可能涉及高性能光纤通道或SAS驱动器(或RAID阵列)，较低性能的SATA驱动器、光盘、磁带存储系统和基于云的近线(nearline)或离线存储系统。

在SSD和云存储普及之前，使用磁盘和磁带来提供第1层、第2层和第3层存储的3层存储模型可能是最流行的分层存储模型。但是现在使用包含5个或更多级别的分层存储模型也并不少见了。每一个层都有细微的差别，从而产生三个关键存储属性的不同组合：成本、性能和容量。

分层存储的目标

如果费用不成问题，企业就可以使用SSD满足所有存储需求，因为它们提供了非常高的性能和可靠性。但是在现实中，存储成本是非常重要的，因为IT部门需要保证在预算范围内运行，而组织作为一个整体必然要寻求最小化成本和最大化效率。不幸的是，与硬盘驱动器相比，SSD存储更贵，而且比磁带存储贵得多。

这代表我们需要明智地使用SSD，并且只用于存储需要高性能系统使用的数据。不太重要的数据可以存储在更低的成本、更低的性能系统(如HDD)上，很少访问或仅为合规性目的保留的数据可以转移到成本非常低的离线存储系统

因此，分层存储并不是由IT部门的运营需求驱动的，而纯粹是出于财务原因。分层存储系统的目标是通过使用提供最低性能要求的最便宜的存储来最小化存储成本。

分层存储是如何工作的?

只有两个存储层的分层存储系统为存储管理员提供了一个非常有限的选择，即给定数据应该存储在什么地方。如果第2层可以提供这些数据所需要的存储性能，那么可以将其存储在第2层，如果没有，就将其存储在更昂贵的第1层。

分级存储系统有三个层可能会更有效率，因为相同的数据可以存储在第3层如果性能水平足够的话，如果不是那么它可以存储在第2层，再然后是更昂贵的第1层，也就是说有了更多的选择。

实际上，可用的存储层越多，数据块就可以更有效地存储在满足其性能需求的适当存储层中，而不是以不必要的高成本提供不必要的高性能。可以使用诸如创建RAID阵列的技术，用一组不同类型的存储媒介创建新的层。分层存储系统面临的最大挑战是将数据分类为多个类，这需要确定哪个存储层最适合给定的数据类型，并在数据老化时定期对数据进行重新分类。

这里的关键是，任何给定的数据存储需求可能随时间变化，因此数据存储在分层存储系统中时，数据必须被长期监控，一旦它不再需要当前的高性能，就可以转移到较低成本的存储层。

典型的分层存储数据类型包括:

关键业务数据。这类数据总是需要存储在最高层的存储中，因为它需要支持高速应用程序——可能支持客户事务。访问数据的延迟可能会导致组织失去某些业务，或对盈利能力产生负面影响。对于此类数据来说，性能是最重要的。

热数据。这类数据需要较高级别的分层存储，因为它经常用于CRM、ERP甚至电子邮件等应用，并且需要用于企业的日常运行。在此类存储层中，性能很重要，但是成本也是一个考虑因素。

温数据。此类包括较早的数据，如超过几天的电子邮件或已完成事务的数据。这类数据的访问频率相对较低，但仍然要保证在需要时可以访问。在这个存储层中，最重要的考虑因素是成本，但是受制于最低的性能阈值。

冷数据。这类数据可能永远不会再被访问，但需要将其存档并保留，以符合监管或其他法律要求，或者只是因为它可能在未来某个不确定的时间具有某种价值——可能用于大数据分析。理想情况下，冷数据适合于可接受分钟或小时访问时间的最低层次的分层存储，而低成本是最重要的考虑因素。

显然，手动的存储分层方法可能过于耗时和繁琐，难以成功。因此，大多数分层存储系统依赖于使用层管理系统的自动分层，层管理系统在整个生命周期中监视数据，并在数据冷却时自动将其向下移动。

此软件可能与单个存储系统一起提供并在其上运行，也可能是一个独立的解决方案，它可以直接跨组织的存储基础设施工作，在某些情况下还可以通过云存储网关进入云。

分层存储的主要优势

分层存储带来了许多好处，其中最重要的是:

·降低存储成本:通过将每个数据类存储在成本最低的存储系统上，并提供其所需的最低性能，企业可以避免为不需要的高性能买单。存储成本的降低是采用分层存储系统的主要原因。

·更高的存储效率:依赖RAID阵列的存储系统的效率很低，因为可以存储在这些系统上的数据量比提供的总存储容量要少——甚至在某些情况下要少得多。由于分层存储系统可以缓解RAID的需求(通过将不需要如此高性能的数据转移到较低的存储层)，因此存储效率将会提高。

·能够重用旧的存储设备: 分层存储可以为旧的存储系统带来新的生命，它们可以用于较低的存储层，否则这些系统可能会因为无法为上层数据提供足够的性能而被废弃。

分层存储等级

在一些已经使用存储分层一段时间的组织中，可能会将新的、比现有的第1层更快的存储层视为第0层。但就本文而言，第1层被假定为性能最高的存储层。

第1层

此存储层用于存储高度易失性和时间敏感的数据，这些数据需要在尽可能短的时间内可用。通常用于金融交易环境或其他业务领域，在这些领域中，可能在几分之一秒内生成或丢失比存储成本大得多的资金，存储速度需要尽可能快。因此，不管总体存储效率如何，通常都需要为实现最高性能配置非常快的固态存储介质来搭建第1层存储。

第2层

此存储层用于存储事务性数据，以支持高性能应用程序、面向客户的系统(如零售应用程序)和其他系统，在这些系统中，只能接受极短的延迟。由于所需的性能级别不像1层那么高，因此通常使用更低的成本和更高效的固态存储系统来提供2层存储解决方案。

第3层

第3层用于存储“热”数据，如CRM和ERP数据，甚至是最近的电子邮件，这些数据需要频繁访问，不能出现不必要的延迟。这意味着它需要存储在如中到高性能硬盘驱动器的介质上，与固态存储介质相比，这些介质的成本相对较低。在许多组织中，第3层的数据要比第2层或第1层的数据多得多，所以高容量的硬盘驱动器提供了一个理想的解决方案，它提供了低成本的每GB存储空间。

第4层

这个存储层用于“温”数据，比如最近完成的事务的数据、几天前的电子邮件以及其他不经常访问的数据。它还可以用来存储可能用于业务信息和数据可视化系统的数据，或者用于创建月度、季度或年度报告所需的财务数据。但是无论何时需要，都需要相对快速的访问。第4层存储需求可能非常大，由于成本是主要考虑因素，因此第4层存储的典型解决方案是大容量硬盘驱动器存储。与配置用于性能需求的高性能SAS磁盘或RAID阵列不同，第4层存储更可能使用低成本、相对低性能的SATA驱动器。

第5层

最低的存储层通常用于存档可能永远不会再次访问的“冷”数据，但仍然有一些价值(可能将来用于数据挖掘)，因此值得保留。它还用于存储必须为合规性目的而保留的数据，这些数据只需要在几天或几周内访问，而不需要在几分钟或几秒内访问。

光介质或磁带存储系统通常用于这一存储层，它们的存储成本很低，但性能很差。在过去的几年里，基于云的存储已经成为常见的选择，企业可以将大量的数据以低成本的方式存储，或者在需要的时候在几小时内相对容易地获取数据。