且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《数据科学:R语言实现》——导读

更新时间:2022-10-02 18:53:09


《数据科学:R语言实现》——导读

前  言

大数据、物联网、人工智能已经变成近几年最热门的科技流行语。尽管大家用很多名词去定义这些技术,但是共通的思想是它们都是数据驱动的。人们并不满足于简单地拥有数据,因为发现其中的价值才是最本质的。因此数据科学家已经开始关注如何从原始数据中洞悉深层价值。

数据科学已经变成学术界和产业界最流行的话题。但是数据科学是一门非常宽泛的学科,学会掌握数据科学注定很有挑战性。初学者必须学习如何准备、处理、聚合和可视化数据。而更多高级技能包括机器学习,挖掘各种数据格式(文本、图像和视频),以及最重要的—使用数据产生商业价值。数据科学家的角色需要大量的努力,同时,一名成功的数据科学家也需要一个有力的工具来解决日常问题。

在这个领域中,数据科学家使用最广泛的工具是开源而且免费的R语言。作为一种机器语言,R提供了许多数据处理函数、学习库和可视化函数,允许用户快速上手分析数据。R可以帮助用户快速执行分析,并在不需要懂得复杂数学模型细节的前提下执行机器学习算法。

本书给出了实际方案,教你如何使用R语言将数据科学落地。全书共12章,每一章都分成几个简单的教程。通过每一个教程循序渐进的介绍,你可以使用R的程序包,掌握书中所教授的技术。

本书首先介绍如何创建R函数来避免不必要的代码重复。你会学到如何使用R程序包,在各种数据源上准备数据、处理数据和执行高级ETL操作。数据操作的一个例子是介绍如何使用dplyr和data.table程序包有效地处理大型数据结构。还有一章关注ggplot2,介绍如何创建高级图形,进行数据展示。你也会学到如何使用ggvis程序包构建交互式报告。

本书也会介绍如何使用数据挖掘技术发现经常一起购买的产品。后面的章节还给出了财务数据的时间序列分析结果。还有一些章节会深入介绍机器学习技术,包括数据分类、回归、聚类和降维。我可以保证,本书会让你觉得,数据科学学习原来如此简单。

目  录

[第1章 R中的函数
1.1引言](https://yq.aliyun.com/articles/119446/)
1.2 创建R函数
1.3 匹配参数
1.4 理解环境
1.5 使用词法域
1.6 理解闭包
1.7 执行延迟计算
1.8 创建中缀操作符
1.9 使用替代函数
1.10 处理函数中的错误
1.11 调试函数
[第2章 数据抽取、转换和加载
2.1 引言](https://yq.aliyun.com/articles/119485/)
2.2 下载公开数据
2.3 读取和写入CSV文件
2.4 扫描文本文件
2.5 使用Excel文件
2.6 从数据库中读取数据
2.7 爬取网络数据
2.8 获取Facebook数据
2.9 使用twitteR
[第3章 数据预处理和准备
3.1 引言](https://yq.aliyun.com/articles/119506/)
3.2 重命名数据变量
3.3 转换数据类型
3.4 使用日期格式
3.5 添加新的记录
3.6 过滤数据
3.7 舍弃数据
3.8 合并数据
3.9 排列数据
3.10 重塑数据
3.11 检测缺失数据
3.12 估计缺失数据