《写给程序员的数据挖掘实践指南》——

更新时间：2022-09-26 12:07:21

本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第5章，第5.8节，作者：【美】Ron Zacharski（扎哈尔斯基），更多章节内容可以访问云栖社区“异步社区”公众号查看。

5.8更多数据、更好的算法以及一辆破公共汽车

几年前我在墨西哥城参加一个学术会议，那次会议的会程与其他会议有点不同：第一天做报告，而第二天则是一天的游览（包括帝王蝶、印加遗迹等）。游览的那天涉及一段在公共汽车上的长途旅行，而汽车出了点故障。于是，在汽车进行检修时，一大堆博士有很多时间站在路边互相交谈。这段马路上的交流对我而言是那次会议的亮点。其中和我交谈的一个人叫Eric Brill，他因为开发一个称为Brill的词性标注器而闻名。与前几章类似的是，Brill标注器做的也是对数据分类，此时，它将词按照词性（名词、动词等）分类。Brill构建的算法要显著优于前人的算法（因此，Brill在自然语言处理领域变得十分出名）。在那条墨西哥公路边，我同Eric Brill探讨提高算法性能的问题。他的观点是，通过获得更多训练数据带来的提高会比算法改进带来的提高要大。实际上，他感觉如果保留原始的词性标注算法并且单纯增大训练数据的规模，所带来的提高会高于新提出的算法所带来的进步。尽管如此，他也说，只是搜集更多的数据无法获得博士学位，但是通过开发出一个具有少量性能提高的算法却能实现这一点！

《写给程序员的数据挖掘实践指南》——

这里给出了另一个例子。在很多机器翻译竞赛中，Google往往名列前茅。我们得承认Google拥有大量极其聪明的人在开发伟大的算法，但是Google之所以胜出很大部分原因应归功于其从Web上获得的极大规模训练集。
《写给程序员的数据挖掘实践指南》——

这并不是说不应该选择***的算法。我们已经看到，选择好的算法会带来显著的不同。但是，如果想解决一个实际问题（而不是发表学术论文），那么可能不值得花费大量时间研究和调整算法。如果集中去获取更多数据的话，你或许会得到更高的性价比或者时间上的更好回报。

在认识到数据重要性的同时，我将继续想办法引入新的算法。

人们将kNN分类器用于：

Amazon上的物品推荐

消费者信贷风险的评估

利用图像分析技术对地表分类

人脸识别

识别图像中的人物性别

推荐Web网页

推荐度假套餐
1Introduction to Data Mining. 2005. Addison-Wesley
本文仅用于学习和交流目的，不代表异步社区观点。非商业转载请注明作译者、出处，并保留本文的原始链接。

上一篇 : ：《社会智能与综合集成系统》—第1章1.6节智慧涌现下一篇 : 《Unity 3D 游戏开发技术详解与典型案例》——1.4节本章小结

《写给程序员的数据挖掘实践指南》——

5.8更多数据、更好的算法以及一辆破公共汽车

相关阅读

推荐文章