且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

机器学习--1. 疑惑及个人见解

更新时间:2022-06-10 05:37:51

疑惑及个人见解

1. 《数理统计》与《概率论》

个人理解《数理统计》侧重于在样本空间上对数据进行研究,而《概率论》是在整个数据空间上研究数据特性;《数理统计》是根据局部到整体,而《概率论》直接研究整体。

2. 均值与期望

均值是《数理统计》中的含义,即研究的是样本空间上的中心点问题;期望是《概率论》上的意义,即研究的是整个数据空间上的中心点问题;因此,期望是恒定不变的,均值是沿期望波动的,而且受异常值影响较大;根据大数定理,当样本的个数趋于无穷时,均值收敛于期望,即这时,均值就是期望。

3. 独立、互斥、相关

两个事件相互独立是指两个事件发生互不影响,既可以同时发生,也可以不同时发生;互斥是指两个事件不可能同时发生,因此互斥事件一定不相互独立;相关是指两个事件发生存在依赖关系,如A的变大,B也跟着变大或变小;

4. 观察值、真实值和预测值

观察值一般指我们拿到的数据,一般是真实值的表征 ,可能存在误差,而预测值是我们根据当前数据集建立的模型的输出值。一般与真实值存在偏差,与观测值也存在偏差。

5.偏差、误差、方差,噪声

这三个最容易理解的是方差,方差表征了样本数据集围绕均值的波动情况。偏差=误差。噪声是指观察值与真实值之间的偏差,受观测方式的影响,观察值于真实值之间存在一定的偏差。

6.机器学习三要素

模型可以理解为输出函数;策略可以理解为挑选出***模型的方法,如损失函数+风险函数;算法可以理解为求解模型中的参数