更新时间:2021-11-29 01:50:53
本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章,第1.2节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。
如果我们把大数据比作一块未经开发的沃土,那么只有经过耕耘收获的果实才能够算得上是真正获得了沃土的回报。换言之,如果把大数据比作一块沃土,那么只有强化对土地的“耕耘”能力,才能通过“加工”实现数据的“增值”。
随着“大数据时代”的开启,对大数据本身的处理和分析越来越为生产者和商业者所看重。但是问题在于,相比于拥有较长历史的数据库分析和传统数据分析,大数据分析具有待数据量特别巨大、算法分析特别复杂等特点。
一般来说,大数据分析需要涉及以下4个方面。
由这些方面可以知道,大数据分析是数据分析最前沿的技术。这种新的数据分析是目标导向的,不用关心数据的来源和具体格式,能够根据我们的需求去处理各种结构化、非结构化和半结构化数据,配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的预测分析服务,能够面向更广泛的普通员工快速部署分析应用。
长期以来,对数据的统计分析使用的还是一般传统的关系型数据库分析技术。不得不说,关系型数据库从诞生到今天,经历了50年的发展,已经成为一门成熟的、至今仍旧具有一定活力的数据分析管理技术。
但是,由于关系型数据库天生的缺陷,其丧失了在互联网大数据时代的机会,原因主要是其传统的关系型数据管理模型的扩展无法与如今的大数据进行很好的融合,不能满足大数据的要求。对于关系型数据库来说,其追求的是高度一致性和数据正确性。而这恰恰制约了其扩展能力,无法实现任意的存储容量扩展和本身处理能力的加强,使之无法满足互联网时代的大数据分析需求。