且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《机器学习与数据科学(基于R的统计学习方法)》——1.1 机器学习的分类

更新时间:2022-09-17 08:40:57

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第1章,第1.1节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.1 机器学习的分类

本书会向读者介绍机器学习的基本原理。作为数据科学和大数据产业的主要推动力,机器学习在众多行业中广受关注,它可以为企业提供使公司数据资产增值的新方法。在本书中,我们会基于R语言统计环境学习机器学习算法的原理,包括两种基本类型:监督学习和非监督学习。

监督机器学习(Supervised machine learning)通常与预测有关,与每个观测值(也称为特征变量,feature variable)对应,都有一个结果值。监督学习的训练目标是根据响应模型准确预测未来的观测值对应的响应结果。很多传统的学习算法,诸如线性回归或逻辑回归,都属于监督学习的领域。

非监督机器学习(Unsupervised machine learning)是更开放性的一种类型。它不使用标记好的数据集,而是一套应用于程序上的统计工具,在大量的观测中只测量其中一组特征变量。在这种情况下,预测不再是学习的目标,因为数据集没有被标记,不存在可以监督分析行为的响应变量。事实上,非监督学习的目标是通过对特征变量的观测来挖掘一些有趣的事情。例如,你可以找到一个数据形象化的展现方式,或者发现数据集中隐藏的子群。

非监督学习技术的一个常用的场景是K-均值聚类,即在数据点集中找出“聚类”。另一种常用技术叫做主成分分析(PCA),用于降维,也就是说,在保持数据多样性的同时,减少特征变量,来简化学习算法中的数据复杂度,加快数据处理效率,并能降低所需的内存占用。