您现在的位置: 首页 > 权威评估

如何挖掘大数据的价值

日期:2014-03-06信息来源:信息中心点击:

数据是一种资产,数据有价值,这点已成为各界的共识。但是,数据的价值体现在哪里,如何让数据增值却时有争议,并成为当前大数据管理的核心议题之一。

首先,数据规模是大数据价值的基础。《大数据时代》的作者舍恩伯格认为,在信息处理能力受限的时代,我们只能通过随机采样用最少的数据得到最多的信息,但是随机采样具有困难性、分析领域的局限性以及分析结果缺乏延展性等问题。在大数据处理技术日益成熟后,人们选择收集全面而完整的数据以实现对社会科学领域更细致、更微观的认识。大数据时代,“样本=总体”的全数据模式认为:数据的规模越大越好,纷繁混杂的数据越多越好。因此,收集同构和相关异源、异构数据,扩大整合共享水平,增加数据在时空维度上的规模是有效挖掘大数据潜在价值的第一步。

其次,数据质量是大数据价值的关键。数据质量对于增强数据资产的价值是十分关键的,其主要取决于数据的内容和结构,有三个衡量标准——客观性、全面性和实用性:在内容上,高质量的数据应该是客观、准确、可靠的,这就要求在数据的获得方式、产生方法上是科学透明的,获取过程是可复制的;在结构上,应能够保证数据全面或比较全面地反映客观事物,并在数据收集、整理过程中不受到不必要的人为接触和修改;在应用上,要求通过数据清洗、比对,增强数据的准确度,从源头增进数据的可信度和标准化,保证数据的实用性。为此,政府各部门必须建立健全数据质量管理流程和质量纠错机制,通过验证、更正和标准化防止低质量的数据出现。但是,在大数据环境中,传统标准格式的结构化数据占比越来越小,而多媒体数据以及高频率的传感数据越来越多。这类数据的共同特征是多源异构、多实体、多空间和动态化,与传统数据相比,数据量更大、碎片化、精确性下降,数据的处理不仅复杂度高,而且需要改变传统的关系型数据库的设计,以包容数据结构的多样性。冗余配置、标签搜索、语义分析、分布式计算开源框架,以及云计算技术是实现对这类超大量数据存储与处理的一类解决方法。

最后,数据利用是大数据价值的实现途径。大数据革命在于数据本身和我们如何运用数据,即通过对海量数据进行分析,获得有巨大商业价值或社会价值的产品和服务,或深刻的洞见,引发生活生产、社会管理和思维的变革。我们不仅需要依靠高精度数据的分析以完成精确度要求很高的任务,更重要的是通过接受大数据的不精确性,发挥大数据的完整性和混杂性优势,有效利用数据量更多的非结构化数据,以实现对事物全貌和变化趋势的整体性把握。

数据利用范围和开放程度一般可分为部门内利用、部门和行业间共享利用、数据开放和全民共享利用等三个层次。数据越开放,就越能促进数据的自由流动和整合,也就越能体现数据的价值、催生创新。在智慧城市建设中,我国地方政府应着力推动部门间数据共享,通过体制机制创新和智慧应用项目建设打破数据割据,并适时推动政府部门数据开放,促进创新和社会进步。