《机器学习与数据科学（基于R的统计学习方法）》——2.3　数据的来源

更新时间：2021-10-22 06:49:57

本节书摘来异步社区《机器学习与数据科学（基于R的统计学习方法）》一书中的第2章，第2.3节，作者：【美】Daniel D. Gutierrez（古铁雷斯），更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.3　数据的来源

你会发现用于机器学习项目的数据文件有多种可能来源。大多数情况下，你将从所效力的公司的领域专家那里得到数据集。给你提供数据集的可能是一个IT技术人员，可能是财务部门掌管公司Excel数据仓库的人，也可能是一个为公司管理社会媒体效果的咨询师。以下是其他的一些来源的列表。

网络上的机器学习数据资源库：一些广为人知的资源库包括加州大学欧文分校的机器学习资源库（archive.ics.uci.edu/ml）、***的数据网站（例如data.gov），还有机器学习挑战赛的网站Kaggle （www.kaggle.com）。
从应用程序接口（API）中获得：社会媒体数据最常用的API是Twitter API，但是除此之外还有很多其他API。在谷歌的帮助下，你可以轻而易举地调查出是否有其他社会媒体平台提供R可用的API（通过特殊的包）。
抓取网页：几乎你访问的所有网站都能作为数据源使用，特别是那些有组织地显示数据内容的网站。这里唯一的提醒是，你需要一个可以在R中使用的URL，用于呈现包含数据的网页。2.9节会展示从网页中抓取数据的方法。
当你继续学习机器学习的原理时，你应该时刻注意寻找新的数据来源，并考虑：应该如何在机器学习的帮助下使用这个数据集提取知识，从而创造价值？

上一篇 : ：Ansible-playbook roles安装mysql实例(学习笔记二十七)下一篇 : 机器学习数据集！CV、NLP 一应俱全

《机器学习与数据科学（基于R的统计学习方法）》——2.3　数据的来源

2.3　数据的来源

相关阅读

推荐文章

《机器学习与数据科学（基于R的统计学习方法）》——2.3 数据的来源

2.3 数据的来源

相关阅读

推荐文章

《机器学习与数据科学（基于R的统计学习方法）》——2.3　数据的来源

2.3　数据的来源