“大数据”的宣传威力你大概已经见识过了。虽然我个人并不热衷于预测重大变革,也没有对此进行深入研究,但是如果你是一名IT专业人士,那么忽视大数据将是非常危险的。
我相信大数据将会受到越来越多地关注。不过,需要提醒的是,与云计算一样,大数据还处于定义阶段。由于众多厂商都在试图按照自己的理解对大数据进行定义,这导致许多定义往往会相互矛盾。
大数据存储与大数据分析的合并是导致混乱出现的主要根源。大数据分析是非常重要的东西,而大数据存储实际上就是存储,其任务是存储来自高清视频流等应用的大量数据。一家尚未公布大数据产品的大型存储厂商告诉我,他们正在考虑用“巨数据”(HugeData)这个名称来命名自己的大数据存储产品。在不久的将来,大数据存储将会转而支持大数据分析。目前,对用户而言,最重要的是搞清楚厂商是倾向于存储还是分析。
大数据分析的定义目前也还没有形成统一认识,但是已经取得了一些进展。大数据分析源自数据仓库的概念,同时增加了典型数据库所没有的一些功能。首先,大数据分析包括非结构化和结构化数据。业界普遍认为80%的数据是非结构化的。大数据分析意味着非结构化数据目前是能够被挖掘的。
第二,典型的数据仓库用户可以设置查询,然后在一天或是一周后得到查询结果。然而,许多大数据分析处理的目标是实时向用户反馈查询的结果。第三,数据仓库仅仅查询有限的数据来源。大数据分析能够将迥然不同的数据源整合在一起,例如混合有RFID、GPS、产品出货数据的供应链追踪系统,提供以前无法提供的信息。
个人认为,任何关于大数据分析的定义必须要综合以上三个属性。不过,这一理念正在被人们所误解。一些根本不是大数据的东西正在被贴上“大数据”的标签,比方说将传统数据仓库说成是大数据体系,理由仅仅是因为它们能够处理更多的数据量。
与其在这一阶段对大数据的定义争论不休,我们更应该理解和利用这些新出现的东西。例如,将非结构化数据整合到商业分析应用之中的能力;涵盖了结构化和非结构化在内的多种数据源的能力;实时生产新类型信息的能力。
以上是我认为大数据值得关注的原因。的确,它们还有可能为商业用户和消费者实时提供新类型的数据。但这一能力的前提是,在从不同数据源获取数据、思考并做出决策的过程中,计算方式正在越来越接近人类的思维方式。对于IT部门而言,这意味着他们的职能将从提供服务向影响经营业绩转变。(本文作者JohnWebster为存储研究机构Evaluator集团的高级合伙人。)