《写给程序员的数据挖掘实践指南》——5.1训练集和测试集

更新时间：2022-03-12 23:59:42

本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第5章，第5.1节，作者：【美】Ron Zacharski（扎哈尔斯基），更多章节内容可以访问云栖社区“异步社区”公众号查看。

5.1训练集和测试集

前一章的最后部分中，我们使用了3个不同的数据集：女子运动员数据集、Iris数据集以及汽车MPG数据集。我们把每个数据集分成两个子集，一个用于构建分类器，该数据集称为训练集（training set）。另一个数据集用于评估分类器，该数据集称为测试集（test set）。训练集和测试集是数据挖掘中的常用术语。

数据挖掘领域的人永远不会在用于训练系统的数据上进行测试！
下面以近邻算法为例来解释为什么不能使用训练数据来测试。如果上述例子中的篮球运动员Marissa Coleman在训练数据中存在，那么身高6英尺1英寸体重160磅的她就会与自己最近。因此，如果对近邻算法进行评估时，若测试集是训练数据的子集，那么精确率总是接近于100%。更一般地，在评估任意数据挖掘算法时，如果测试集是训练数据的子集，那么结果就会十分乐观并且过度乐观。因此，这种做法看起来并不好。

那么上一章使用的方法如何？我们将数据集分成两部分。较大的那部分用于训练，较小的那部分用于评估。事实表明这种做法也存在问题。在进行数据划分时可能会极端不走运。例如，所有测试集中的篮球运动员都比较矮（像Debbie Black的身高只有5英尺3英寸，体重只有124磅），他们会被分成马拉松运动员。而测试集中所有的田径运动员就像Tatyana Petrova（俄罗斯马拉松运动员，身高5英尺3英寸，体重108磅）一样较矮、体重较轻，可能会被分成体操运动员。如果测试集像上面一样，分类器的精确率会很差。另一方面，有时候测试集的选择又会十分幸运。测试集中的每个人都有所从事项目的标准身高和体重，此时分类器精确率接近100%。两种情况下，精确率都依赖于单个的测试集，并且该测试集可能并不能反映分类器应用于新数据的真实精确率。

上述问题的一种解决方法是重复多次上述过程并对结果求平均。例如，我们可以将数据分成两半：Part 1和Part 2。

《写给程序员的数据挖掘实践指南》——5.1训练集和测试集

我们可以使用Part 1的数据来训练分类器，而利用Part 2的数据对分类器进行测试。然后，我们重复上述过程，这次用Part 2训练而用Part 1测试。最后我们将两次的结果进行平均。但是，这种方法的问题在于我们每次只使用了一半数据进行训练。然而，我们可以通过增加划分的份数来解决这个问题。例如，我们可以将数据划分成3部分，每次利用2/3的数据训练而在其余1/3的数据上进行测试。因此，整个过程看起来如下：

第一次迭代使用Part 1和Part 2训练，使用Part 3测试
第二次迭代使用Part 1和Part 3训练，使用Part 2测试
第三次迭代使用Part 2和Part 3训练，使用Part 1测试
对上述结果求平均。
在数据挖掘中，最常用的划分数目是10，这种方法称为……

10折交叉验证（10-fold Cross Validation）
使用这种方法，我们将数据集随机分成10份，使用其中9份进行训练而将另外1份用作测试。该过程可以重复10次，每次使用的测试数据不同。

考察一个例子。假设我想构建一个分类器，该分类器对于问题“Is this person a professional basketball player?”只回答Yes或No。我们的数据由500名篮球运动员和500名非篮球运动员组成。

上一篇 : ：匿名洋葱路由Tor，又添了一层新加密算法下一篇 : 《ANTLR 4权威指南》——第3章入门的ANTLR项目 3.1 ANTLR工具、运行库以及自动生成的代码

《写给程序员的数据挖掘实践指南》——5.1训练集和测试集

5.1训练集和测试集

相关阅读

推荐文章