且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《数据挖掘:实用案例分析》——导读

更新时间:2022-09-28 23:41:08


《数据挖掘:实用案例分析》——导读

前 言

为什么要写这本书

  现在,什么程序员最稀缺?什么技术最火?回答:数据挖掘!

  数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。

  近年来企业所处理的数据每五年就会呈现倍数增长。大部分的企业并没有数据不足的问题,过度的数据重复与不一致才是大问题,这使得企业在使用、有效管理以及将这些数据用于决策过程方面都遭遇到了问题。因此未来几年,随着大数据迅速发展,数据挖掘将是极为重要的成长领域,其应用会越来越广泛,可以说,只要企业掌握有分析价值的数据源,皆可进行高价值的数据挖掘分析。目前数据挖掘主要应用在电信、零售、农业、互联网、金融、电力、生物、化工和医疗等行业。典型的应用如:客户细分、流失预警、价值评估、交叉销售、欺诈发现、精准营销、故障诊断等。

  总的来说,跟国外相比,我国由于信息化程度不太高、企业内部信息不完整,零售业、银行、保险、证券等对数据挖掘的应用并不太理想。但随着市场竞争的加剧,各行业应用数据挖掘技术的意愿越来越强烈,可以预计,未来几年各行业的数据分析应用一定会从传统的统计分析发展到大规模数据挖掘应用。

  本书作者从实践出发,结合大量数据挖掘工程案例,总结出数据挖掘建模过程应完成的任务主要包括:数据探索、数据预处理、分类与回归、聚类分析、时序预测、关联规则挖掘、偏差检测等。因此,本书的编排以解决某个应用的挖掘目标为前提,先介绍案例背景,再阐述分析方法与过程,最后完成模型构建,在介绍建模过程的同时穿插操作训练,把相关的知识点嵌入相应的操作过程中。

  本书光盘中附数据挖掘建模案例数据文件、数据挖掘算法工具包源程序及使用说明。

读者对象

  • 需求分析及系统设计人员。

  这类人员可以在理解数据挖掘原理及建模过程的基础上,结合数据挖掘案例完成精确营销、客户分群、交叉销售、客户流失分析、客户信用记分、欺诈发现等数据挖掘应用的需求分析和设计。

  • 数据挖掘开发人员。

  这类人员可以在理解数据挖掘应用需求和设计方案的基础上,结合本书提供的基于第三方接口快速完成数据挖掘应用的编程实现。

  • 开设有数据挖掘课程的高校教师和学生。

  目前国内不少高校将数据挖掘引入本科教学中,在数学、自动化、电子信息、金融等专业开设了数据挖掘技术相关的课程。目前这一课程的教学仍主要限于理论介绍,因为过于抽象,学生理解起来往往比较困难,教学效果不甚理想。本书提供的基于实战案例和建模实践的教学,能够使师生充分发挥互动性和创造性,理论联系实际,从而获得***的教学效果。

  • 进行数据挖掘应用研究的科研人员。

  许多科研院所为了更好地对科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据。但是,这些科研业务管理系统一般没有对这些数据进行深入分析的功能,对数据所隐藏的价值并没有充分挖掘利用。科研人员需要数据挖掘建模工具及有关方法论来深挖科研信息的价值,从而提高科研水平。

  • 关注高级数据分析的人员。

  业务报告和商业智能解决方案对于了解过去和现在的状况是非常有用的。但是,数据挖掘的预测分析解决方案还能使这类人员预见未来的发展状况,让他们的机构能够先发制人,而不是处于被动。因为数据挖掘的预测分析解决方案将复杂的统计方法和机器学习技术应用到数据之中,通过使用预测分析技术来揭示隐藏在交易系统或企业资源计划(ERP)、结构数据库和普通文件中的模式和趋势,从而为这类人员的决策提供科学依据。

  
  张良均

  2013年4月于广州

目 录

[第1章 初识数据挖掘
1.1 什么是数据挖掘](https://yq.aliyun.com/articles/173582/)
1.2 数据挖掘在企业商务智能应用中的定位
1.2.1 数据挖掘给企业带来最大的投资收益
1.2.2 数据挖掘从本质上提升商务智能平台的价值
1.2.3 数据挖掘让商务智能流程真正形成闭环
1.3 信息类BI应用与知识类BI应用
1.4 数据挖掘现状及应用前景
1.5 本章小结
[第2章 数据挖掘的应用分类
2.1 分类与回归](https://yq.aliyun.com/articles/173611/)
2.1.1 分类与回归建模原理
2.1.2 分类与回归算法
2.2 聚类
2.2.1 聚类分析建模原理
2.2.2 聚类算法
2.3 关联规则
2.3.1 什么是关联规则
2.3.2 关联规则算法
2.4 时序模式
2.4.1 什么是时序模式
2.4.2 时间序列的组合成分
2.4.3 时间序列的组合模型
2.4.4 时序算法
2.5 偏差检测
2.6 本章小结
[第3章 数据挖掘建模
3.1 数据挖掘的过程](https://yq.aliyun.com/articles/173683/)
3.2 数据挖掘建模过程
3.2.1 定义挖掘目标
3.2.2 数据取样
3.2.3 数据探索
3.2.4 预处理
3.2.5 模式发现
3.2.6 模型构建
3.2.7 模型评价
3.3 常用的建模工具
3.4 本章小结