管理大数据的五大良策
扫描二维码
随时随地手机看文章
美国政府在即将到来的大数据项目中将面临重重挑战,其中之一就是生成数据量不足。但事实上,Gartner最近的报告显示,企业数据年平均增长速度在40%〜60%。
作为一些生成大量数据机构(包括国家天气服务局、国家海洋和大气管理局)的主管政府部门,美国商务部的这一数字甚至更低。
在最近的FOSE大会上,美国商务部CIOSimonSzykman表示:“我们不存在挑战的领域之一就是我们生成数据的能力。我们生成数据的基本能力提升很大,从很大程度上讲,这一能力已超越了我们处理数据、管理数据和转移数据的能力。”
如何管理数据,并将数据从一点转移到另一点,将是美国政府面临的一大挑战。
Szykman还提到了商务部在大数据中遇到的其他一些重要问题,主要为以下五个方面:
数据工程师
研究领域的很多科学家正在研究大数据的精密使用,比如在预防医学、药品设计和胎儿检查领域如何开发基因数据。但Szykman担心的是,真正了解大数据技术构架的人太少。
他说:“我们得好好想想大数据及我们如何利用它,特别是在一些特殊领域。无论是政府的直接应用还是由政府出资科研,政府都在推动大数据这一前沿技术的发展。”
保密性VS.完整性
对于那些有科研基础的机构来说,大数据安全不仅仅是一个保密问题。事实上,更大的担忧是数据的长期完整性。
Syzkman说:“这是IT界一直为之努力的议题。有时候,我们过分关注结果而忽视了安全。人们有时会问:'我们最终都要和公众分享这一数据,那安全有什么重要呢?'”
这一问题的最佳答案来自科研机构,如NOAA。他们收集的基准数据正巧是美国气候变化政策备受争议所在。
Szykman说:“不管这些政策的政治倾向性如何,它们都对经济有重大影响。如果我们放弃了这些长期气候记录数据的安全性,那将造成严重后果。我们的确得好好想想大数据的问题。'‘
大思路,早规划
在向开放数据转移的过程中,尽早搞清楚系统生命周期的要求显得越来越重要。
Szykman说:“过去没有做的一件事就是尽早研究开放数据在生命周期上的要求。我认为,数据模型、分享和信息的情况会越来越普遍,而系统性的战略会越来越多。在生命周期的早期,在我们成功安装新的系统或应用程序后,就应该尽早考虑该问题。”
数据真实性
大数据的重要性不仅仅在于数据所生成的记录,更大的价值在于根据这些数据得出科研结果的“复制能力”。
Szykman说:“从学术层面来看,这正是你证实所做工作价值的时候:其他人也可以对结果进行复制。另一方面,如果你丢失了得出科研结果的那些数据,这会降低结果的合理性。”
制定基线
由于很少存在类似的应用程序,难以获取相关信息或进行比照,因此有时候很难评定大数据以及其他高科技项目的开支和风险。出台开支和风险的基线,对大数据和数据中心来说都是一大挑战,因为还没有相关标准。
他说:“操作一些简单事情有时候充满挑战,如计算数据中心的能耗。大数据基线不仅在基础设施层面,还包括数据包,都需要对未来资源进行更优规划。
20211021_617041f7e1811__管理大数据的五大良策