《R语言数据挖掘：实用项目解析》——第2章，第2.4节解读分布和变换

更新时间：2021-12-31 00:31:47

本节书摘来自华章出版社《R语言数据挖掘：实用项目解析》一书中的第2章，第2.4节解读分布和变换，作者［印度］普拉迪帕塔·米什拉（Pradeepta Mishra），更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.4　解读分布和变换
为了对所有统计假设检验的前提假设有清晰的认识，理解概率分布至关重要。例如，在线性回归分析中，基本的前提假设是误差分布呈正态分布且变量关系为线性。所以在建立模型之前，观察分布的形状并采取可能的校正变换是很重要的，如此才能便于对这些变量使用更深入的统计技术。

2.4.1　正态分布
正态分布原理基于中心极限定理（CLT），表示从一个均值为μ、方差为σ2的总量中抽取的所有大小为n的样本，在n增长趋于无穷时，其分布都近似于一个均值为μ、方差为σ2的正态分布。检查变量的正态性对于移除离群点很重要，因为这样才会使得预测过程不会受影响。离群点的存在不仅会使预测值偏离，也会影响预测模型的稳定性。接下来的示例代码和图将演示如何图像化地检测并解释正态性。
为了检测出正态分布，我们可以使用其中一些变量的平均值、中位数和众数：

从上图可以得出这样的结论，price变量是正偏斜的，因为一些离群点在分布的右边。price的平均值被夸大且大于众数，因为平均值受到极端值波动的影响。
现在我们尝试理解一个可用正态分布解答假设的案例。
假设变量MPG.highway（高速路上每加仑油耗可行驶的英里数）呈均值为29.08和标准差为5.33的正态分布，一辆新车每加仑油耗可行驶35英里（约56km）的概率是多少？

因此要求一辆新车每加仑油耗可以行驶35英里的概率是13.36%。因为期望均值高于实际均值，所以lower.tail设为F。

2.4.2　二项分布
二项分布也被称为离散概率分布，它描述的是一个试验的结果。每一次试验均假定只有两种结果：要么为成功或失败，要么为是或否。举个例子，Cars93数据集中，是否手动变速（manual transmission availability）就被表示成yes或no。
下面以一个例子来解释二项分布可以用在什么地方。对于一辆有缺陷的汽车，有一个特定零件功能坏了的概率是0.1%。假设有93辆已制造好的汽车，至少一辆有缺陷的汽车可被检测出来的概率是多大：

所以要求的93辆汽车中的有缺陷汽车概率是0.0006，与一个损坏零件的概率0.10相比，这是个非常小的数字。

2.4.3　泊松分布
泊松分布针对的是计数数据，给定关于一个事件的数据与信息，利用泊松概率分布，你可以预测在极限范围内任一数字出现的概率。
我们来看一个例子。假设平均每分钟有200位顾客访问某电商网站，可得一分钟内会有250个顾客访问同一个网站的概率：

因此，所求的概率是0.0002，说明这种情况很罕见。除了上述常见的概率分布，还有一些分布可用于罕见情况。

上一篇 : ：《R语言数据挖掘：实用项目解析》——第2章，第2.5节解读分布下一篇 : RDS for MySQL CPU 性能问题浅析

《R语言数据挖掘：实用项目解析》——第2章，第2.4节解读分布和变换

相关阅读

推荐文章