且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《数据驱动安全:数据安全分析、可视化和仪表盘》一1.3.2 探索性数据分析

更新时间:2022-03-12 13:01:43

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.3.2节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3.2 探索性数据分析

目前为止,我们已经解释了应该如何开始进行良好的数据分析,接下来我们探讨在真实世界中,事情一般是怎么发生的。如果有了明确的研究问题以及干净无噪声的数据,然后每天早晨先来一杯咖啡热饮再开始一天的工作,这是十分惬意的。然而在真实生活中呢,我们经常不得处理一些为咖啡热饮做准备的工作,会经常地开始疑问“这数据到底有什么作用呢?”。这又将我们带回到了John Tukey(出现在本章前部分),他开创了一个称为探索性数据分析(exploratory data analysis,EDA)的数据处理过程,它有点像赤脚在数据里边或者周围滚来滚去的过程,在这样的过程学习数据中不同的变量,理解它们的含义以及它们与其他变量之间的关系。Tukey创造了一系列的技术方法来提高我们对数据的观察力和理解能力,包括简单优雅的茎叶图、五数概括法,以及具有极大帮助的箱线图。其中的每一种方法都会在本书后续章节讲到。
一旦你对数据感到适应了,你就会很自然地询问一些有关的问题,但是有很重要的一点,你要一直不断地回过头重新产生更加合适的研究问题。正如Tukey在其1997年出版的《Exploratory data analysis can never be the whole story》中所说,他将EDA视为数据分析过程的基石和第一步,他还提到“探索性数据分析是一种态度,一种灵活的状态,一种找寻东西的信念,寻找那些我们认为既存在又不存在的东西。”有了这种想法,本书中的很多用例都使用了探索性分析。我们将用一种迭代的方法,当你在数据中穿行的时候会学到知识。最后呢,我们要谨记,数据分析是用来找寻那些值得探索的问题答案的。