自1990年代初以来,一直使用“大数据”一词。尽管尚不清楚最初使用该术语的人是谁,但大多数人都赞扬John R. Mashey(当时在Silicon Graphics工作)。
从本质上讲,大数据不是全新的东西,也不只是过去二十年的东西。几个世纪以来,人们一直在尝试使用数据分析和分析技术来支持他们的决策过程。公元前300年左右的古埃及人已经尝试捕获亚历山大图书馆中所有现有的“数据”。此外,罗马帝国过去曾仔细分析其军队的统计数据,以确定其军队的最佳分配。
但是,在过去的二十年中,生成数据的数量和速度发生了变化-超出了人类的理解范围。2013年,全球数据总量为4.4 ZB。到2020年,这一数据将急剧上升至44 ZB。从这个角度来看,44 ZB相当于44万亿千兆字节。即使采用当今最先进的技术,也无法分析所有这些数据。处理这些越来越大(和非结构化)数据集的需求是过去十年中传统数据分析如何转变为“大数据”。
为了说明随着时间的发展,大数据的发展大致可以分为三个主要阶段。每个阶段都有自己的特征和功能。为了了解当今大数据的背景,重要的是要了解每个阶段如何对大数据的当代意义做出贡献。
大数据阶段1.0
数据分析,数据分析和大数据源于数据库管理的长期领域。它在很大程度上依赖于关系数据库管理系统(RDBMS)中存储的数据中常见的存储,提取和优化技术。
数据库管理和数据仓库被视为大数据第1阶段的核心组件。它使用诸如数据库查询,在线分析处理和标准报告工具之类的众所周知的技术,为我们今天所知的现代数据分析奠定了基础。
大数据阶段2.0
自2000年代初以来,Internet和Web开始提供独特的数据收集和数据分析机会。随着网络流量和在线商店的扩展,雅虎,亚马逊和eBay等公司开始通过分析点击率,特定于IP的位置数据和搜索日志来分析客户行为。这为可能性开辟了一个全新的世界。
从数据分析,数据分析和大数据的角度来看,基于HTTP的Web流量导致半结构化和非结构化数据的大量增加。除了标准的结构化数据类型,组织现在还需要找到新方法和存储解决方案来处理这些新数据类型,以便对其进行有效分析。社交媒体数据的到来和增长极大地加剧了对工具,技术和分析技术的需求,这些工具,技术和分析技术能够从这种非结构化数据中提取出有意义的信息。
大数据阶段3.0
尽管基于Web的非结构化内容仍然是许多组织在数据分析,数据分析和大数据中的主要重点,但是从移动设备中发现了检索有价值的信息的当前可能性。
移动设备不仅可以分析行为数据(例如点击和搜索查询),而且还可以存储和分析基于位置的数据(GPS数据)。随着这些移动设备的进步,可以跟踪运动,分析身体行为甚至健康相关数据(每天要执行的步骤数)。这些数据为交通,城市设计和医疗保健提供了全新的机会。
同时,基于传感器的基于Internet的设备的兴起正以前所未有的速度增加了数据的生成。成千上万的电视,恒温器,可穿戴设备,甚至是冰箱,都被称为“物联网”(IoT),现在每天都在生成ZB数据。从这些新数据源中提取有意义和有价值的信息的竞赛才刚刚开始。
下图列出了大数据的三个阶段的摘要:

文章评论