更新时间:2022-05-21 13:56:59
0.1 大数据的定义
大数据可以用三个“V”来定义:
“lotsa data”常用来表示大量格式简单的记录数据的集合,例如:每颗可观测到的星星的大小和位置;每个在美国的人和他们的电话号码;每个现存物种及其谱系;等等。这些数据量较大的数据集往往美其名曰“列表”,其中有一些是目录,其目的是存储和检索信息;还有一些lotsa data数据集是电子表格(行列二维表),数学上等价于一个巨大的矩阵。出于科学研究的目的,有时同时分析一个矩阵中的所有数据是非常必要的。矩阵分析强调计算,也许需要一台超级计算机的协助。这种对于大型矩阵的全局分析不是本书的主题。
大数据资源并不等价于一个大型的电子表格,也不意味着从总体上进行分析。大数据分析是一个多步骤的过程,在此过程中数据经过提取、过滤和转换,然后进行逐个分析或递归分析。在你读这本书时,会发现“lotsa data”与大数据之间的区别非常之大,这两者几乎不能在同一场所被有效地讨论。