对大容量数据平台进行成本优化的策略
扫描二维码
随时随地手机看文章
大数据分析是一个很重要的功能,但是纯粹的数据量被消化、处理和存储会很快变成一个财政负担。运行大数据平台、每秒处理数百万个事件的组织面临着一个持续的挑战:平衡对稳健数据管理的需求和成本效益。
本文以通用大数据平台为例,通过不同的策略有条不紊地检查和控制成本。
端到端大数据平台组件
一个端到端的大数据平台简化了数据的过程,从原始格式到可行的见解。它由几个关键组件组成,这些组件可以一起有效地管理整个数据生命周期。
· 数据摄取层: 这是一个切入点,无缝地从各种来源获取数据,无论其格式如何(结构化、半结构化、非结构化)。它可以过滤掉不相关的数据,以提高效率,并将其转换为一致的、定义明确的结构(模式),以进行更好的分析。
· 低延迟分析层: 在这里,实时或近实时处理处于中心阶段。这一层对于需要立即采取行动的应用程序至关重要,例如分析可疑活动交易的欺诈检测系统。
· 临时搜索和索引: 这一层授权灵活地探索您的数据。它创建可搜索的索引,使用户能够进行快速和有针对性的搜索,以满足预期和未预见的分析需求。
· 储存层: 平台提供适合不同使用情况的存储解决方案:
o 短期储存: 该层存储了数据科学项目、调查和模型开发或执行中常见的批处理任务的数据。
o 长期储存: 这种层存储了较长时间的数据,而检索的频率较低。对于审计目的或历史分析来说,它是最理想的,因为长期的可访问性是至关重要的。
摄取层的优先摄取效率
计算机科学的核心原则,不仅仅是大数据,是在开发生命周期的早期解决问题。单元测试完美地证明了这一点,因为及早捕捉错误是成本效益更高的。同样的逻辑也适用于数据的摄取:尽快过滤掉不必要的数据,最大限度地提高效率。通过将资源集中在具有潜在业务价值的数据上,可以最大限度地减少浪费。
另一个优化策略是数据正常化。在摄入过程中将数据转换为定义明确的模式(结构)提供了显著的优势。这种前期处理减少了数据平台中后续组件的解析负担,使它们能够专注于核心任务。
低延迟的计算层虽然还不普遍,但对愿意投资的组织来说却有很大的优势。通过利用现代流技术,这些层可以大大降低处理成本,并以闪电般的速度产生洞察力。这种实时能力使企业能够处理欺诈侦查、安全等关键用途案件 事件应对 ,以及以极具成本效益的方式处理通知书。
优化对成本和效率的特设搜索
虽然临时搜索提供了灵活性,但由于索引、复制和处理查询所需的资源,它可能成为一个重要的成本因素。以下是优化特设搜索和简化数据管理的战略:
· 分析搜寻模式: 通过仔细检查用户查询,无论是临时的还是定期的保存的搜索,您都可以确定向临时搜索工具输入数据的机会。这可能涉及过滤不相关的数据或预先处理数据,以提高搜索效率。
· 利用低延迟分析: 审查计划保存的搜索可以揭示将它们迁移到低延迟分析层的机会。这对于需要实时洞察力的搜索或涉及高计算成本的搜索特别有利,例如正则表达式(Regex)或子字符串搜索。通过在低延迟层中处理这些数据,您可以释放临时搜索系统中的资源,并有可能降低总体成本。
· 为提高效率而规范化: 分析使用模式,以确定数据摄入过程中的正常化机会。在正常化过程中,提前提取相关数据可以显著降低复杂搜索(如Regex或子字符串搜索)的相关计算成本。
优化数据存储
存储数据所涉及的费用与需要存储的数据数量和数据的使用成正比。云计算提供者根据数据的大小收费,然后在计算、网络和传输中需要额外的费用来执行数据上的任何计算。有两种简单的优化方法 储藏室 费用:
了解您的数据使用频率
实现成本优化的第一步是明确了解您的数据环境。这包括根据访问频率对数据进行分类:
· 热数据: 经常访问对实时分析和决策至关重要的数据。实例包括流式传感器数据、用户活动日志和财务事务。
· 热数据: 数据定期访问,但不是实时的。这可能包括历史日志、客户数据和点击流数据。
· 冷数据: 很少访问具有长期保留要求的数据。这可能包括历史备份、合规档案和来自不活动项目的日志数据。
通过对数据进行分类,您可以定制其存储策略。热数据需要高性能的存储,如固态驱动器(SSD),以便快速检索。温暖数据可以保存在更便宜的硬盘驱动器(HDDS)上,而冷数据最适合于成本效益高的对象存储解决方案。
数据生命周期管理
数据积累得很快,如果没有适当的管理,就会导致存储膨胀和不必要的成本。实现 数据生命周期管理 自动化数据移动和删除的政策。这些政策可界定为:
· 数据保留期: 根据监管和业务要求,设定存储不同数据类型的具体时限。超过这些期间的旧数据可以归档或删除。
· 数据质量检查: 自动检查数据的完整性和一致性.识别并删除重复数据或错误数据,以优化存储利用率.
· 数据分类: 随着数据年龄的增加,根据您的数据分类,将其自动移动到成本较低的存储层。这确保了热数据随时可用,同时保持整体存储成本效益。
优化架构促进效率
您的大数据平台的架构对其整体成本有重大影响。以下是如何优化资源利用:
· 正确评估实例: 分析处理作业的资源使用模式.不要成为过度配置的牺牲品;根据实际的工作量需求,将实例(虚拟机)向上或向下扩展。这可以通过云计算提供者提供的自动规模化功能来实现。
· 云成本管理工具: 利用你的云平台提供的成本管理工具。这些工具提供了对资源利用和成本细目的详细了解,并确定了潜在的节约。探索以下特征:
o 保留实例: 在承诺使用期间以折扣率购买计算机资源。这可能有利于可预测的工作量。
o 局部实例: 利用未使用的云容量,降低需求价格。这对于具有灵活调度需求的批处理作业是理想的。
o 安排工作: 在云资源价格通常较低的情况下,在非高峰时间安排资源密集型数据处理任务。
监测和报告费用
成本优化是一个持续的过程。为了保持成本效益,实施健全的成本监测和报告做法:
· 费用 :开发仪表板,提供不同资源类别的实时和历史成本洞察力。可视化成本趋势有助于积极主动地确定潜在的成本增加。将成本度量作为业务度量,需要对趋势变化进行监测,以便在成本成为问题之前采取行动。
· 费用归属 根据具体部门和项目的数据使用情况分配费用。这有助于提高内部利益攸关方的成本意识,并鼓励负责任的数据管理做法。
结论:实现成本效益高的大数据管理之路
优化大数据平台的成本是一个持续的过程。通过实施上述战略,您可以在不损害数据生态系统的功能和价值的情况下节省大量费用。最有效的方法将取决于您的特定数据环境、工作负载和云环境。定期监控、整个开发生命周期的成本意识以及持续改进的承诺是确保大数据平台提供高效率和高成本效益的见解的关键。