Hadoop – 大数据概述
Hadoop – 大数据概述
“世界上 90% 的数据都是在过去几年中产生的。”
由于新技术、新设备和社交网站等通信手段的出现,人类产生的数据量每年都在快速增长。我们从一开始到 2003 年产生的数据量是 50 亿 GB。如果您以磁盘的形式堆积数据,它可能会填满整个足球场。2011 年每两天创建相同数量,2013 年每十分钟创建相同数量。这个速度还在飞速增长。尽管产生的所有这些信息都是有意义的并且在处理时可能有用,但它却被忽视了。
什么是大数据?
大数据是无法使用传统计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是一个完整的主题,它涉及到各种工具、技术和框架。
什么是大数据?
大数据涉及由不同设备和应用程序产生的数据。下面给出了大数据保护下的一些领域。
-
黑匣子数据– 它是直升机、飞机和喷气式飞机等的组成部分。它捕获机组人员的声音、麦克风和耳机的录音以及飞机的性能信息。
-
社交媒体数据– Facebook 和 Twitter 等社交媒体拥有全球数百万人发布的信息和观点。
-
证券交易所数据– 证券交易所数据保存有关客户对不同公司的股份做出的“买入”和“卖出”决策的信息。
-
电网数据– 电网数据保存特定节点相对于基站消耗的信息。
-
运输数据– 运输数据包括车辆的型号、容量、距离和可用性。
-
搜索引擎数据– 搜索引擎从不同的数据库中检索大量数据。
因此,大数据包括海量、高速和可扩展的各种数据。其中的数据将分为三种类型。
-
结构化数据– 关系数据。
-
半结构化数据– XML 数据。
-
非结构化数据– Word、PDF、文本、媒体日志。
大数据的好处
-
使用 Facebook 等社交网络中保存的信息,营销机构正在了解对其活动、促销和其他广告媒体的反应。
-
使用社交媒体中的信息,如消费者的偏好和产品认知,产品公司和零售组织正在计划他们的生产。
-
使用有关患者既往病史的数据,医院正在提供更好、更快捷的服务。
大数据技术
大数据技术在提供更准确的分析方面很重要,这可能会导致更具体的决策,从而提高运营效率、降低成本并降低业务风险。
为了利用大数据的力量,您需要一个能够实时管理和处理大量结构化和非结构化数据并能够保护数据隐私和安全的基础设施。
市场上有来自不同供应商(包括亚马逊、IBM、微软等)的各种技术来处理大数据。在研究处理大数据的技术时,我们研究了以下两类技术 –
运营大数据
这包括像 MongoDB 这样的系统,它们为主要捕获和存储数据的实时交互式工作负载提供操作功能。
NoSQL 大数据系统旨在利用过去十年出现的新云计算架构,以低成本、高效地运行大规模计算。这使得运营大数据工作负载更易于管理、成本更低且实施速度更快。
一些 NoSQL 系统可以基于实时数据以最少的编码提供对模式和趋势的洞察,而无需数据科学家和额外的基础设施。
分析大数据
其中包括大规模并行处理 (MPP) 数据库系统和 MapReduce 等系统,它们为可能涉及大部分或全部数据的回顾性和复杂分析提供分析功能。
MapReduce 提供了一种新的数据分析方法,补充了 SQL 提供的能力,以及一个基于 MapReduce 的系统,可以从单台服务器扩展到数千台高低端机器。
这两类技术是互补的,并且经常一起部署。
操作与分析系统
操作 | 分析型 | |
---|---|---|
Latency | 1 毫秒 – 100 毫秒 | 1 分钟 – 100 分钟 |
Concurrency | 1000 – 100,000 | 1 – 10 |
Access Pattern | 写入和读取 | 读取 |
Queries | 可选择的 | 非选择性 |
Data Scope | 操作 | 回顾 |
End User | 顾客 | 数据科学家 |
Technology | 无SQL | MapReduce,MPP 数据库 |
大数据挑战
与大数据相关的主要挑战如下 –
- 捕获数据
- 策展
- 贮存
- 搜索
- 分享
- 转移
- 分析
- 推介会
为了应对上述挑战,组织通常会借助企业服务器。