且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

《Scala机器学习》一一1.7 总结

更新时间:2022-09-19 12:02:38

1.7 总结
本章试图为后面更复杂的数据科学建立一个通用平台。不要认为这里介绍了一套完整的探索性技术,因为探索性技术可扩展到非常复杂的模式上。但是,本章已经涉及了简单的汇总、抽样、文件操作(如读和写),并使用notebook和Spark DataFrame等工具来工作,Spark的DataFrame也为使用Spark/Scala的数据分析师引入了他们所熟悉的SQL结构。
下一章开始介绍数据管道,可将其看作基于数据驱动企业的一部分,并从商业角度给出数据发现的过程:做数据分析试图要完成的最终目标是什么。在介绍更复杂的数据表示之前,会先介绍一点传统的机器学习内容,如监督学习和无监督学习,从中也能看出Scala相对于SQL的优势。