且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《MapReduce 2.0源码分析与编程实战》一1.2 大数据分析时代

更新时间:2021-11-29 01:50:53

本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章,第1.2节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.2 大数据分析时代

如果我们把大数据比作一块未经开发的沃土,那么只有经过耕耘收获的果实才能够算得上是真正获得了沃土的回报。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力,才能通过“加工”实现数据的“增值”。

随着“大数据时代”的开启,对大数据本身的处理和分析越来越为生产者和商业者所看重。但是问题在于,相比于拥有较长历史的数据库分析和传统数据分析,大数据分析具有待数据量特别巨大、算法分析特别复杂等特点。

一般来说,大数据分析需要涉及以下4个方面。

  • 有效的数据质量。任何数据分析都来自于真实的数据基础,而一个真实数据是采用标准化的流程和工具对数据进行处理得到的,可以保证一个预先定义好的高质量的分析结果。
  • 优秀的分析引擎。对于大数据来说,数据的来源多种多样,特别是非结构化数据来源的多样性给大数据分析带来了新的挑战。因此,我们需要一系列的工具去解析、提取、分析数据。大数据分析引擎就是用于从数据中提取我们所需要的信息。
  • 合适的分析算法。采用合适的大数据分析算法能让我们深入数据内部挖掘价值。在算法的具体选择上,不仅仅要求能够处理的大数据的数量,还涉及对大数据处理的速度。
  • 对未来的合理预测。数据分析的目的是对已有数据进行总结,并且将现象与其他情况紧密连接在一起,从而获得对未来的预测。大数据分析也是如此。不同的是,在大数据分析中,数据来源的基础更为广泛,需要处理的方面更多。

由这些方面可以知道,大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的,不用关心数据的来源和具体格式,能够根据我们的需求去处理各种结构化、非结构化和半结构化数据,配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的预测分析服务,能够面向更广泛的普通员工快速部署分析应用。

长期以来,对数据的统计分析使用的还是一般传统的关系型数据库分析技术。不得不说,关系型数据库从诞生到今天,经历了50年的发展,已经成为一门成熟的、至今仍旧具有一定活力的数据分析管理技术。

但是,由于关系型数据库天生的缺陷,其丧失了在互联网大数据时代的机会,原因主要是其传统的关系型数据管理模型的扩展无法与如今的大数据进行很好的融合,不能满足大数据的要求。对于关系型数据库来说,其追求的是高度一致性和数据正确性。而这恰恰制约了其扩展能力,无法实现任意的存储容量扩展和本身处理能力的加强,使之无法满足互联网时代的大数据分析需求。