且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

hive 数据源,yarn 集群测试, SQL 分别取 topN4 | 学习笔记

更新时间:2022-05-14 11:52:43

开发者学堂课程【大数据实时计算框架Spark快速入门hive 数据源,yarn 集群测试,SQL 分别取 topN4 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1717


hive 数据源,yarn 集群测试,SQL 分别取 topN4


内容介绍:

一、具体内容

二、开窗函数

三、开窗函数的作用


一、具体内容

如果第一次没有跑成功,那么会在 node 里面再来跑一次,要将三个包,放到ADFS 里面去,不是直接, put 上去的。

我们只是要在代码里面—— jars 里面把三个包传到 ADFS 里面去,把下面的 copy 进去,在里面再执行一次,刚跑了四个模式,只是 yarn,class ,还需要加—— jars,

其他都不需要加, upnode 三个包,上传到 ADFS 里面去,这样来跑的话就没有问题。如果 applicationmaster 里面跑两次,第一次没有抛成功, attempt number 如果第一次成功就不用再尝试第二次了,所以很多时候在跑的时候,看页面,去第一次里面看 log 日志,看8088页面把包名都看成名称了,点applicationmaster ,每次提交一个 application 都会上传一个包,点一个applicationmaster 就会跳到熟悉的 spark UI 里面来,也就是说如果你把 spark程序通过 unyark 程序来执行的话也是可以看到 applicationUI 的,点applicationmaster 会进入到 tracking UI 里面来,看整个日志,点整个 ID ,点logs 然后输出日志。正常执行就是有正常输出,集群模式那个 driver 可以用在集群里面,整个信息是在申请资源的信息里面, master 是申请资源,开始抛起来,真正输出日志的信息就在页面里面,这里面只是抛一下告诉客户端,以及资源的使用情况,就是资源的申请情况。另一边,告诉了一个错就开始尝试第二次了,尝试两次还会有问题,就不再尝试了,这是 yarn 里面默认的机制,默认尝试的次数就是两次,来读 hive 的数据, hive 的数据源,hive 跟 sparksqL 整合在一起,直接可以读到存的地方,可以直接读到表,把 hive——site 存到 spark/conf/ 目录下,接着把四种模式执行一遍,就成功了。


二、开窗函数

就是使用 sparkSQL 来做到咱们 topN ,来读 hive 的数据,不能本级测试,接着删除 sql 表,把本地的数据导到 hive 里面去。


三、开窗函数的作用

就是给每一个分组的数据,按照其排序的顺序,打上一个分组内的标号,比如说有一个分组按照日期来分组,查看三组数据,那么这个分组的每一行使用 row,number 开窗函数以后,这三个行号会打上一个组内的行号,行号是从1开始递增,

比如最后结果是 11211,11212,2,11213,3 那么我们直接从 sql 语句直接看出我们直接对 sales 表开窗。