且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《写给程序员的数据挖掘实践指南》——

更新时间:2022-09-26 12:07:21

本节书摘来自异步社区出版社《写给程序员的数据挖掘实践指南》一书中的第5章,第5.8节,作者:【美】Ron Zacharski(扎哈尔斯基),更多章节内容可以访问云栖社区“异步社区”公众号查看。

5.8更多数据、更好的算法以及一辆破公共汽车

几年前我在墨西哥城参加一个学术会议,那次会议的会程与其他会议有点不同:第一天做报告,而第二天则是一天的游览(包括帝王蝶、印加遗迹等)。游览的那天涉及一段在公共汽车上的长途旅行,而汽车出了点故障。于是,在汽车进行检修时,一大堆博士有很多时间站在路边互相交谈。这段马路上的交流对我而言是那次会议的亮点。其中和我交谈的一个人叫Eric Brill,他因为开发一个称为Brill的词性标注器而闻名。与前几章类似的是,Brill标注器做的也是对数据分类,此时,它将词按照词性(名词、动词等)分类。Brill构建的算法要显著优于前人的算法(因此,Brill在自然语言处理领域变得十分出名)。在那条墨西哥公路边,我同Eric Brill探讨提高算法性能的问题。他的观点是,通过获得更多训练数据带来的提高会比算法改进带来的提高要大。实际上,他感觉如果保留原始的词性标注算法并且单纯增大训练数据的规模,所带来的提高会高于新提出的算法所带来的进步。尽管如此,他也说,只是搜集更多的数据无法获得博士学位,但是通过开发出一个具有少量性能提高的算法却能实现这一点!

《写给程序员的数据挖掘实践指南》——

这里给出了另一个例子。在很多机器翻译竞赛中,Google往往名列前茅。我们得承认Google拥有大量极其聪明的人在开发伟大的算法,但是Google之所以胜出很大部分原因应归功于其从Web上获得的极大规模训练集。
《写给程序员的数据挖掘实践指南》——

这并不是说不应该选择***的算法。我们已经看到,选择好的算法会带来显著的不同。但是,如果想解决一个实际问题(而不是发表学术论文),那么可能不值得花费大量时间研究和调整算法。如果集中去获取更多数据的话,你或许会得到更高的性价比或者时间上的更好回报。

在认识到数据重要性的同时,我将继续想办法引入新的算法。

人们将kNN分类器用于:

Amazon上的物品推荐

消费者信贷风险的评估

利用图像分析技术对地表分类

人脸识别

识别图像中的人物性别

推荐Web网页

推荐度假套餐
1Introduction to Data Mining. 2005. Addison-Wesley
本文仅用于学习和交流目的,不代表异步社区观点。非商业转载请注明作译者、出处,并保留本文的原始链接。