且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《机器学习与数据科学(基于R的统计学习方法)》——1.9 数据集

更新时间:2022-09-13 17:08:16

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第1章,第1.9节,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.9 数据集

本书尽力教大家机器学习的方法,因为机器学习是关于数据的,所以我们需要大量的样本数据集以供在例子中使用。为了让事情简单一点(并且不需要你花费大量时间去寻找数据集),书中使用的大多数数据集都是R软件在安装时自带的。使用如下命令,查看可用的数据集列表:

> data()```
你所能看到的列出的数据集,取决于你安装了什么包和你在内存中加载了什么包。R包中通常包含可以用来检验函数功能的数据集。可以使用如下命令,查看特定R包中包含的数据集:

data(package="plyr")`
要查看某个数据集中的更多内容,你可以使用在数据集名称前面加?的命令,就像下面展示的这样。R会给出数据集的简短介绍、观测(例子)的数目、变量名(特征)列表、代码示例和在很多情况下都有的每个变量的描述。图1-5展示了R给出的关于airquality数据集的帮助信息。本书会使用许多著名数据集,强烈建议你熟悉每个数据集中的每个变量。

> ? airquality```
你可以使用以下命令来将某个数据集加载到内存中:

data(iris)`

你将在RStudio的Workspace标签页看到数据集的名称。

《机器学习与数据科学(基于R的统计学习方法)》——1.9 数据集