且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《机器学习与数据科学(基于R的统计学习方法)》——第1章 机器学习综述

更新时间:2022-09-17 08:45:46

本节书摘来异步社区《机器学习与数据科学(基于R的统计学习方法)》一书中的第1章,作者:【美】Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区“异步社区”公众号查看。

第1章 机器学习综述

机器学习与数据科学(基于R的统计学习方法)
 

机器学习(Machine Learning)可以看成是从观察自然世界来推断结果和提取灵感的一套工具和方法。举个生活中常见的例子,你想通过房间数、卫生间数、建筑面积和地皮尺寸来预测一栋房子的价格,可以使用一个简单的机器学习算法(例如,线性回归),从现有的真实房地产销售数据集中学习,通过机器学习数据集中每栋房子的售价,可以预测尚未出售的房屋售价。事实上,这种预测需要海量数据(通常规模在TB以上)的支撑。同时,数据的质量对预测结果准确度起着十分重要的作用,就像数据科学界的一句耳熟能详的话说的那样:好算法不如大数据。

近年来,机器学习已经发展成一门很成熟的学科。它逐渐成为数据科学领域的促进者,反过来,数据科学的发展也带动了大数据(Big Data)的发展。然而,机器学习并不是一门全新的学科,它的基本原理在相当长时间前就已经深入人心了,只是使用了不同的名称,例如,“数据挖掘”“在数据库中的知识挖掘(knowledge discovery)”和“商业智能”,这些术语都是机器学习的传统叫法。在此之前,“统计”和“数据分析”都用来描述从数据中收集信息的过程。我相信机器学习是现在描述这个领域的***术语。Machine Learning也因为大量引用而成为Twitter圈中的热门标签。考虑到通过数据对系统进行的建设和研究,机器学习也被看成是人工智能(artificial intelligence)的一个分支。现如今,机器学习的应用大多依赖云存储硬件和性能优异的并行框架,如Apache公司的Hadoop和AMP实验室的Spark。

“机器学习”第一次正式使用是在1959年,当时在IBM公司工作的Arthur Samuel把机器学习描述成赋予未设定程序的计算机学习能力。很快,到了1998年,卡耐基梅隆(Carnegie Mellon)大学机器学习系的系主任Tom Mitchell给学习程序下了一个定义:

如果一个计算机程序针对某类任务T的性能用P衡量,且根据经验E来自我完善,那么我们称这个计算机程序在从经验E中学习,针对某类任务T,它的性能用P来衡量。

Mitchell这个广为人知的定义适用范围非常广泛,能概括我们通常所说的大多数“学习”任务。在这一定义下,我们举一个机器学习问题的例子:考虑任务T是把垃圾邮件做分类,性能指标P是被正确分类的垃圾邮件的百分比,和训练集E是已经分好类(垃圾邮件或正常邮件)的邮件数据集。垃圾邮件分类器是机器学习解决现实商业问题的首批应用之一,如今它也应用在绝大部分邮件软件中。

启动一个新的机器学习项目时,另一条需要时刻谨记在心的公理是美国数学家John Tukey提出的,他因为在统计方式上的贡献和1977年开创性的著作《Exploratory Data Analysis》而受到统计学圈子的推崇:

拥有数据和对结果的渴求并不能确保从已知的数据中得到一个合理的结果。

这一准则意味着一个合格的机器学习从业者需要知道什么时候应该放弃,什么时候你拥有的数据不足以得出需要的答案。另一条耳熟能详的格言“输入无用数据,就会输出无用数据”同样也适用于机器学习领域。