《大数据分析原理与实践》一一2.2　基本统计量

更新时间：2022-09-18 19:38:39

**2.2　基本统计量
**数据中的基本统计方法是基本统计量的计算，尽管简单，但是在一定程度上可以很好地反映出数据的特征和变化趋势。
2.2.1　全表统计量
根据反映出的数据特征类型可以将基本统计量分为两类：反映数据集中趋势的和反映数据波动大小的。
能够反映数据集中趋势的度量包括均值、中位数和众数。下面给出它们的定义。
均值的定义为：令x1，x2，…，xn为某数值属性X的n个观测值或者观测，该值集合的均值为
（2-1）
有时，对于i=1，…，n，每个值xi可以与一个权值wi相关联。权值反映它们所依附的对应值的意义、重要性或出现的频率。在这种情况下，我们可以计算
（2-2）
这称作加权算术均值或加权平均。
中位数的定义为：有序数据值的中间值，即把数据较高的一半与较低的一半分开的值。假设给定某属性X的N个值按递增排序。如果N是奇数，则中位数是该有序集的中间值；如果N是偶数，则中位数不唯一，它是最中间的两个值和它们之间的任意值。在数值属性的情况下，根据约定，中位数取作最中间两个值的平均值。
众数的定义为：数据集中出现最频繁的值。
三种统计量之间的比较见表2-1。
《大数据分析原理与实践》一一2.2　基本统计量

能够反映数据散布情况的数据波动大小度量包括极差和方差（标准差）。
极差的定义为：设x1，x2，…，xn是某数值属性X上的观测的集合。该集合的极差是最大值与最小值之差。
方差的定义为：数值属性X的n个观测值x1，x2，…，xn的方差是
（2-3）
其中X是均值，由公式（2-1）定义。观测值的标准差σX是方差σX 2的平方根。低方差意味着数据观测趋向于非常靠近均值，而高方差表示数据散布在一个大的值域中。
两种统计量之间的比较见表2-2。
《大数据分析原理与实践》一一2.2　基本统计量

我们举个简单的例子来说明这几个概念。某个射击选手的成绩为9、8、10、7、6（单位：环），所以可求，中位数为8，极差为10-6=4，方差为。
2.2.2　皮尔森相关系数
上一节讨论的是针对单个属性的全表统计量，本节讨论衡量两个属性（在统计学中称为变量）之间关联关系的统计量。这个关联关系可以用相关系数来衡量。对于两个变量X和Y，如果X和Y没有任何关联关系，它们的相关系数为0；当X的值增大（减小）时，Y值相应地增大（减小），则两个变量为正相关，通常令其相关系数在0.00与1.00之间；当X的值增大（减小）时，Y值相应地减小（增大），则两个变量为负相关，通常令其相关系数在-1.00与0.00之间。
相关系数的绝对值越大，相关度越强。相关系数越接近于1或-1，相关度越强；相关系数越接近于0，相关度越弱。
相关系数可以用许多统计值来测量，最常用的是皮尔森相关系数，它是英国统计学家皮尔森于20世纪提出的一种计算直线相关的方法，也称为皮尔森相关或积差相关（或积矩相关），两个变量X和Y之间的皮尔森相关系数定义为两个变量之间的协方差和标准差的商。

上式定义了总体相关系数，常用希腊小写字母ρ（rho）作为代表符号。估算样本的协方差和标准差，可得到样本相关系数（样本皮尔森系数），常用英文小写字母r代表

r亦可由（Xi，Yi）样本点的标准分数均值估计，得到与上式等价的表达式

其中、X及σX分别是样本Xi的标准分数、样本均值和样本标准差。
皮尔森相关系数的变化范围为-1～1。如果系数的值为1，就意味着X和Y可以理想地由直线方程来描述，所有的数据点都很好地落在一条直线上，且Y随着X的增加而增加；相反，系数的值为-1意味着所有的数据点都落在直线上，但Y随着X的增加而减少。此外，系数的值为0意味着两个变量之间没有线性关系。
更一般地说，当且仅当Xi和Yi均落在它们各自的均值的同一侧，这时（Xi-X）（Yi-Y）的值为正。也就是说，如果Xi和Yi同时趋向于大于或同时趋向于小于它们各自的均值，则相关系数为正。如果Xi和Yi趋向于落在它们均值的相反一侧，则相关系数为负。
举一个例子说明。表2-3为绝缘材料的压缩量和压力。
计算压力x和压缩量y之间的相关系数r。
，
所以，；，。
从而

可以看出，压力和压缩量是高度相关的，而且是很强的正相关关系，不过需要注意的是，高度相关并不一定蕴含因果关系。

上一篇 : ：《大数据分析原理与实践》一一2.3　推断统计下一篇 : 《自动化测试***实践：来自全球的经典自动化测试案例解析》一一第0章　案例研究反思

《大数据分析原理与实践》一一2.2　基本统计量

相关阅读

推荐文章

《大数据分析原理与实践》一一2.2 基本统计量

相关阅读

推荐文章

《大数据分析原理与实践》一一2.2　基本统计量