当前位置:首页 > 物联网 > 《物联网技术》杂志
[导读]摘 要:大数据是从各种各样来源中搜集得到的海量数据信息的总称。从大数据的数据结构看, 大约90%的数据是非结构化的,同时也也面临复杂,性、安全和隐私风险等新挑战。文章分析了企 业的大数据应用,也提出了国家和政府部门未来建设大数据战略应用项目的建议。

政府使用大数据是为了提升和改善公共服务,这与企业 利用其追求利润异曲同工。

大数据是从各种各样来源中搜集得到的海量数据信息的 总称。对于传统的关系型数据分析技术来说,其数据量太大, 未经处理,同时也是非结构化的。据统计,现在每天产生2.5 艾字节(quintillion bytes)的数据信息,全球将近90%的数 据是过去两年创造出来的。

此外,从大数据的数据结构看,大约90%的数据是非结 构化的。来源于网络和云的海量数据,为发现、创造价值,以 及丰富商业智能支撑机构决策提供了新的机遇。不过,大数 据也面临复杂性、安全和隐私风险等新挑战。同时,对于新 技术和人类技能的开发来说,大数据是一种需要。

大数据重新定义了数据管理的范围,由数据提取、转换、 加载,或称为 ETL (Extraction-Transformation-Loading),演 变为在大数据应用中净化和组织非结构化数据的新技术(如分 布式架构技术)。

尽管企业部门正引导大数据应用的发展,公共部门也开 始对迅速增长的大数据具有洞察力,为实时决策提供帮助和 支持。

大数据有多个来源,包括互联网、生物和产业部门、视频、 电子邮件和社交媒体。许多白皮书、期刊论文和商业报告已经 提出了政府利用大数据,帮助其服务公众和应对传统挑战(如 医疗成本上升、创造就业、自然灾害和恐怖主义等)的路径。

也有一些观点,就大数据是否真能改进政府运作效率提 出质疑,因为政府必须发展新的能力,并采用新技术(比如分 布式和非结构化查询语言),通过数据组织和分析,将大数据 转变为有用的信息。

本文就政府是否能与企业一样,将大数据应用于公共服 务部门进行了研究。我们首先比较了政府和企业在目标、任务、 决策制定过程、决策者、组织架构和战略的差异,接着考察 了部分技术领先的国家当前大数据应用的状况,这些国家包 括澳大利亚、日本、新加坡、韩国、英国和美国等。

本文也分析了一些企业的大数据应用,这些技术也能应 用在政府事务中。最后,我们提出了国家和政府部门未来建 设大数据战略应用项目的建议。

1文章主要观点

企业、政府和研究机构都能够从他们捜集的海量大数据 中获取价值;

大数据应用领先的国家已实施大数据应用项目,以提高 国家运行效率、透明度、民众福利和公共事务参与度,确保 经济增长和国家安全;

分析政府部门采用的大数据应用项目,为其他国家提供 未来大数据行动的引导。

2企业和政府的大数据应用比较

虽然企业和政府的主要任务并不冲突,但各自的举措具 有不同的目标和价值。企业的主要目标是通过提供产品和服务 获取利润,发展或维持自身的竞争优势,创造令消费者和其 他利益相关者满意的价值。政府的主要目标则是维持国内稳定, 实现可持续发展,确保公民的基本权利,改善国民福利和促 进经济增长。

在竞争的市场环境下,大部分企业着眼于制定短期决策, 并且执行人员数量也很有限。而政府的决策制定过程通常需 要更长的时间,经过不同群体(包括官员、利益集团和普通民 众)反复讨论和磋商,在彼此间达成一致后才能有最终结果。 因此,政府制定决策要完成很多程序性步骤,以降低决策风险, 提高决策效率和确保其效果。由此看来,大数据在政府部门 和私有部门的应用具有很大不同。

2.1数据集属性比较

大数据环境是以信息技术为基础的决策支持系统的演进: 从上世纪60年代的数据处理,到70-80年代的信息应用,再

到90年代的决策支持模型,进入2000年后的数据存储和挖掘, 再就是今天的大数据。大部分与大数据相关的技术和分析应 用是从2010年左右开始出现的,故大数据时代正处于早期阶 段/发展初期。

大数据的属性和挑战可用3V来描述:海量(volume)、 速度(velocity)和多样性(variety)海量是大数据的基本属性, 各类机构和组织在业务活动过程中产生数以百万亿字节的数 据,数据容量越来越大;速度是指数据量增长越来越快,对 处理速度和响应速度提出更高要求,运用传统的信息技术手 段难以有效处理,以及从中提取有价值的信息;多样性是指 数据以各种各样类型的出现,包括结构化的(SQL等传统的 数据库);半结构化的(具有关键字和规则,但数据结构不规 则或不完整)和非结构化的(非组织性的数据,没有商业智能))

大数据的概念已经表明,大数据不仅仅是海量的数据, 还包括通过处理大数据从中获取价值。如今,大数据与商业智 能、商业分析和数据挖掘是同义词,已经使商业智能从报告 和决策支持转移到预测和制定未来行动纲领。新的数据管理 系统旨在应对大数据带来的挑战,如分布式架构技术是一个 开源平台,目前是在管理存储和接入,以及高速并行处理大 规模数据集等方面应用最为广泛的技术。然而,对于很多企 业,特别是不少中小企业来说,分布式技术是一个挑战。因 为这些中小企业往往不具备应用大数据需要的专业人员和经 验,他们需要外部资源帮助。应该看到,大数据应用需要的不 是纯粹基于技术的技能,找到正确的分析大数据的技能,或 许是企业应用大数据面临的最大难题。对于大部分企业来说, 发现和选择胜任的数据专家(在数据挖掘、可视化、操作和发 现等方面)是困难而昂贵的。

其他商业大数据技术包括Casandra数据库,它是一个 动态的数据库工具,采用行存储格式,每一行能存储二百万 个数据单元。对于企业的另一个挑战是选择最适合他们的大 数据技术:开源技术(如分布式架构技术)或者商业技术(如 Casandra, Cloudera, Hortonworks, MapR)。

政府在应用大数据时,不仅要处理多个来源、不同格 式数据集成等一般问题,而且还面临一些特殊挑战,最大的 挑战就是数据搜集。因为政府搜集的数据不仅来自于多种渠 道(如社交网络、互联网、众包),也来自于不同的来源(如国 家、机构和部门),捜集难度可想而知;其次,在国家之间分 享数据和信息是一个特殊的挑战。跨国分享信息,由于涉及到 语言转换和不同的文化背景(内容的表现形式),分享和传递 的信息有可能失真;第三个挑战是在一个国家不同的政府部门 和机构之间分享数据。政府数据与商业数据最重要的不同就 在范围和区域,其差异近几年都在平稳增长。政府(包括地方 政府和中央政府)在实施法律和规章、提供公共服务和监管 金融交易的过程中积累了大量数据。这些数据的属性、价值 和带来的挑战,都不同于公司运营中产生的数据。政府的大 数据特征属性可以表述为存储、安全和多样性。通常,每个 政府机构或部门都有自己的存储机构,用于存储公共或机密信 息,而且并不愿意分享各自的专有信息。


每个系统都保存有与其他系统隔绝的信息,这使得政府机构和部门之间的数据集成更加复杂。彼此沟通的失败有时是影响数据集成的重要原因。例如,在英国,警察机构和医院之间曾经打算在暴力犯罪方面分享信息,但这一项目最终失败,原因就是两者之间沟通不足。另一个分享政府信息的挑战是建立统一的数据格式,能够允许不同机构进行分析。尽管大部分政府数据是结构化的,但是从多种渠道和来源去搜集数据仍然是一个更大的困难。缺乏标准化的数据格式和软件,以及从多个政府机构的离散数据库中提取有用信息的跨机构解决方法,也是政府推进大数据应用面临的挑战。但由于政府的紧缩措施,导致其缺乏相应资金去发展和推进解决上述问题。

在使用大数据时,政府必须解决相关的法律、安全和许可要求等问题。在搜集和使用大数据用于预测分析与保障公民隐私权之间,应该有一条清晰的界限。表1所列是企业与政府大数据项目的属性比较。

1企业与政府大数据项目的属性对比

在美国,美国爱国者法案允许合法监控,有时还可以监控公民;电子通讯隐私法案允许相关部门不经授权便可进入电子邮件系统;要对网络情报共享和保护法案(CISPA)加以注意,它将允许安全机构和私人网络公司之间的信息共享,这增加了人们对误解信息不适当应用的关注。

数据安全是政府大数据最基本的属性,因此,搜集、存储和使用大数据都需要特别注意。然而,目前大部分大数据技术,包括Casandra数据库和分布式技术,都缺乏足够的安全保护工具。对政府而言,确保安全则是又一个挑战。

对于政府的大数据项目而言,确保获取高度管制行业(比如金融服务和医疗机构)信息的合规性,是捜集数据的另一个障碍。比如,当从与医疗相关的大数据获取有效信息的时候,必须解决美国医疗管制制度对数据保护的问题。针对医疗行业的大数据分析,美国与医疗相关的两个法案健康保险携带和责任法案(HIPAA)、经济和临床健康医疗信息技术法案(HITECH)均设置了很大障碍。图1所示是美国的企业和政府的大数据集属性比较图。

大数据在政府部门的应用

HIPAA保护涉及个人隐私的健康信息,并提出了保护电子数据和病人档案的国家标准,而且制定了保护在分析病人安全事件中病人身份和信息的规则。2009年,HITECH延伸了HIPAA在保护医疗记录和医疗信息被不同机构以电子方式使用方面的规定。这些法律规定限制了医疗记录数据信息用于大数据分析的数量和类型。因为大数据定义涉及到大范围的数据,而这些法规把捜集数据和进行分析限定在一个狭小的范围。目前在美国,能够用于大数据分析的医疗信息只能来自于志愿者提供。

企业使用大数据,目的是了解消费者的需求和行为,发展独有的核心竞争力,并创新产品和服务;政府使用大数据,是为了通过预测性分析,提高政策透明度,增加公民对公共事务的参与度和预防犯罪,改善国家安全,通过更好的教育和医疗提高居民福利。

开发从大数据中提取更多价值的技术,对于政府和企业来说都是持久挑战。然而,对于政府的挑战来得更尖锐,因为其必须打碎部门间的阻隔以推进数据集成,实现各部门信息共享,并建立统一的数据调控中心(如美国联邦数据中心)。

2.2美国的大数据应用

目前,世界上有一些发达国家已经在政府部门开始推广大数据应用。通过分析和比较这些先发国家的大数据应用,我们能了解当前和未来需要大数据应用聚焦和服务的地方,并为其他国家开展大数据应用提供借鉴。

(美国)

为了对海量数据流的实时分析管理,美国政府和IBM在2002年合作开发了一个容量巨大、聚集性强的大数据基础架构。

IBM基于Hadoop、流计算、数据仓库等开发的InfoSphereStream和BigData,被政府机构和商业组织广泛应用于海量实时数据源的分析和可视化、二次应用程序开发和系统管理等。

2009年,美国政府“一站式数据下载”网站data.gov正式上线,并作为向政府透明化和问责制迈进的一个步骤。该网站包括了420894个数据集截至2012年8月),囊括了交通、经济、医疗、教育和人口服务等方面的数据。数据来源于多个方面,其中1279个由政府提供,236个由居民提供,103个由移动设备提供。

2010年,美国总统科学技术顾问委员会(联邦政府协调非分类网络和信息技术投资的主要机构)在《规划数字化的未来》中建议,“联邦政府的每一个机构和部门,都需要制定一个应对'大数据'的战略”,标志着大数据时代已经正式来临。

2012年,奥巴马政府颁布了《大数据的研究和发展计划》,通过提高从大型复杂的数字数据集中提取知识和观点的能力,进而加快美国在科学与工程中的步伐,加强国家安全,并改变教学研究。这是一个数额高达2亿美元的投资计划,涉及多个联邦部门和机构,包括白宫科学技术政策办公室、美国国家自然基金会、美国国立卫生研究院、美国国防部、美国能源部、美国卫生与公众服务部、美国地质调查局等机构。这个投资项目的主要目的是提高大数据核心技术的发展水平,加速科学和工程开发,加强国家安全,转换大数据教育和学习方式,扩展开发和使用大数据技术的工作力量。

截至2014年2月,美国国立卫生研究院(NIH)在亚马逊网络服务中心已经积累了数以百万亿字节的人类遗传变异数据,研究人员因此能获得和分析巨量数据,而不用再去发展自身的超级计算能力。在2012年,美国国家科学基金会联合美国国立卫生研究院(NIH)实施了提高大数据科学与工程核心技术规划,目的在于推进从大量、多样化、分布式、异质性的数据集合中管理、分析、可视化和提取有用信息的核心科学技术。

美国其他政府机构也开始进行大数据分析。美国国家税务局已经在它的返回审查程序中集成了大数据分析能力。通过分析大量的数据,美国国家税务局能够检查、预防和处理避税和案。美国国防部也在大数据相关项目花费了数百万美元,其目标之一就是利用大数据发展自主机器人系统(学习机器)。

美国地方政府也开发了大数据项目。例如,在2011年,美国纽约州锡拉丘兹市政府与IBM合作开展了一个智慧城市项目,使用大数据帮助预测并阻止住宅空置。密歇根州政府信息技术部构建了一个数据库,提供密歇根州居民的相关信息,以便政府机构提供更好的服务。

(2) 欧盟

2010年,欧盟正式发布“欧洲数字化议程”,旨在建立一个统一的“数字市场”,推动欧盟内部高速和极速互联网互联互通和应用共享,进而促进欧盟经济社会可持续发展,造福欧盟人民。2012年,欧盟委员会在“欧洲数字化议程及其挑战”中制订了大数据战略,并强调了公共数据安全及挖掘公共机构数据的价值潜力,同时满足日益强烈的对个人数据安全保护的诉求;发展物联网,确保网络安全及在线交易的数据处理安全。

(3) 英国

英国政府是最早推进大数据规划的欧洲国家。2004年,英国设立了水平扫描中心(HSC)项目,以提升政府处理跨部门和多学科挑战的能力。2011年,水平扫描中心(HSC)启动气候变化的未来国际影响计划,通过对多数据源进行深度分析,研究解决气候变化对食品和水的可获得性,以及对地区或国际形势的影响等问题。英国政府发起的另外一个项目是,2009年建立了http://data.gov.uk公共网站,来自七个政府部门的1000多个既有数据集对外开放,后来增到8633个数据集。

荷兰、瑞士、英国和其他17个国家与IBM合作开发了一个名为DOME的超级计算系统项目。该系统每天能处理超过1EB的数据,数据来源于射电望远镜平方公里阵列(SKA),旨在通过探索百亿亿次的计算、数据传输和存储等新兴技术,以及对每日采集的数据流进行读取、存储和分析,解决一系列宇宙科学问题。这个大数据项目的总部位于英国曼彻斯特的JodrellBank天文台。

(4) 韩国

2011年,韩国总统国家ICT战略委员会发布了“大数据倡议”该委员会是最高层次的政府信息通信技术协同机构,其使命是在建立必要的基础设施过程中发挥领导作用。“大数据倡议”旨在建立泛政府大数据网络和分析系统,推进政府与私有部门之间的数据共享融合,建立公共数据诊断系统,培养和培训合格的大数据专业人员;保障个人信息安全,以及改善相关法律,发展大数据基础设施和技术,发展大数据管理和分析技术。

很多韩国政府机构已经提出了相关的行动计划。例如,韩国卫生部建立了社会福利综合管理网络,分析来源于35个机构的385个不同类型的公共数据,综合管理中央政府和地方政府提供的福利和服务。食品、农业、森林与渔业部、公共行政与安全部(MOPAS)计划推出预防手足口病的综合系统,该系统依托于分析动物疾病相关的海外大数据、海关出入境记录、养殖场的跟踪调查、牲畜迁移和养殖工人活动等相关的大数据,实现预防目的。MOPAS的另一计划是推出灾害预报系统,该系统基于过去的灾害记录和自动实时的天气和地震预报进行预测。此外,韩国生物信息中心计划开发和运营国家DNA管理系统,该系统集成大量的DNA和病人医疗信息,为个人提供个性定制化的诊断和治疗。

(5) 新加坡

2004年,针对国家安全、传染病和其他国家层面关心的问题,新加坡政府与国家安全协作中心合作发布了风险评估和水平扫描计划(RAHS)。通过对大数据的采集和分析,积极把控威胁国家安全的相关问题,包括恐怖袭击、传染病传播和金融危机等。风险评估和水平扫描计划实验中心(REC)于2007年开放,它聚焦于风险评估和水平扫描计划相关政策制定的新技术工具,并通过大数据基础设施系统升级来维持和强化这一能力。为通过大数据研究、分析和应用创造价值,新加坡政府还推出了门户网站http://data.gov.sg/,50多个政府部门的5000多个数据集通过此网站向公众开放。

(6) 日本

日本政府已启动多个利用既有大数据的计划。从2005到2011年,文部科学省与相关的大学和研究机构合作,设立了信息爆炸时代的新IT基础设施项目。从2011年起,政府优先解决地震、核电站灾难和受污染区域的重建和灾民安置,以及相关的社会和经济救济。文部科学省与国家科学基金会合作提高研究和利用大数据的技术,以预防、减轻和管理自然灾害。作为内务省的两个分支机构,信息和通信委员会和ICT战略委员会,把“大数据应用”作为日本面向2020年的关键使命。日本已经成立了一个大数据专家组。

(7) 澳大利亚

澳大利亚政府信息管理办公室(AGIMO)实施政府2.0计划,为公众获取政府数据提供了渠道,政府2.0计划推出了http://data.gov.au/网站,通过这一网站,让公众便捷、高效检索和获取政府数据。

2.3政府大数据项目实施情况比较

回顾大数据应用领先国家的大数据项目情况,有三个显著特点:首先,现有的大多数大数据项目充其量只是数据量较大的应用。这些国家的政府大数据应用项目,大部分是基于共享存储的结构化数据库,并不使用实时、动态和非结构化或半结构化的数据;第二,公共部门致力于规范大型而复杂的数据集,政府期望大数据应用来提升政府服务民众的能力,以及解决国家面临的重大挑战问题,包括经济、医疗、就业、自然灾害和等。然而,大部分大数据应用于居民(参与到公共事务)和商业部门,而不是政府部门;第三,政府设立的大部分大数据项目刚刚开始或计划未来实施,美国国家科学基金会和国家卫生机构的大数据计划就是如此。这意味着,大数据在政府部门的应用仍然处于发展的初级阶段,只有少数项目在运营(比如美国的RRP、新加坡的RAHS和英国的HSC)。

3结语

对不同来源和不同格式(结构化/存储的,半结构化的/滞后的,非结构化的/即时更新的)的数据进行分析和管理并创造价值,是一种新的差异竞争形式。大部分政府运行或计划的大数据项目需要循序渐进,设定正确的目标。项目的成功,取决于他们整合和分析信息的能力(譬如利用Hadoop),开发支持系统(如大数据控制系统)和分析支持决策制定的能力。

本文讨论了政府在大数据应用中面临的挑战和机遇,将为其他国家政府开发和利用大数据提供帮助。通过仔细分析先行国家已有项目的经验和教训,特别是利用移动服务、移动互联等,将有利于这些国家的政府更好地利用大数据。

未应用大数据的政府,应重视和认识公共部门应用大数据的几个问题:

1)国家优先发展战略。大数据应用领先国家的所有大数据项目,都具有国家优先发展的相关目标(比如数据的开放和已获得,公民更好参与公共事务)。对大数据应用的主要关注点集中于安全、速度、交互性、分析能力,和缺少胜任的专业人员。然而,每个国家的政府基于其独有的环境,有自身的优势、机会和威胁。

2) 分析机构。对于跨部门的数据,管理和综合数据需要一个自上而下的统筹。政府应建立一个大数据控制中心以综合各部门既有数据的数据库,包括结构化和非结构化的。此外,政府还需要建立一个先进的分析机构负责开发战略,处理大数据如何通过新技术平台进行管理和分析,如何招募到熟练的从业人员。

3) 实时分析。政府需要管理即时更新的大数据,并进行实时分析,同时保护个人信息安全,还需要探索的新技术平台(比如云计算,先进分析和安全技术)。相当多的政府数据在性质上是全球化的,而且能够被用于预防和解决全球事务,因此必须开展全球合作。

4) 国际化。各国政府间努力集成和共享地球观测数据。全球地球观测系统,是一个全球性的公共基础设施,产生了综合的、接近实时性的环境数据,目的是为全球使用者和决策制定者提供信息以供分析。政府也需要共享与安全威胁、和非法活动相关的数据。这种大数据需求不仅需要转换技术,还需要国际化的协作去共享和综合数据。


20211121_619a150c1a3e0__大数据在政府部门的应用

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭