更新时间:2021-12-15 22:01:16
作者:云魁、连辙
客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统用于数据分析任务。但是由于自建HDFS空间限制无法保存长期数据,或者客户有Hadoop集群迁移上云的需求。本实践方案提供如下场景的***实践:
基于IPSec VPN隧道 + DistCp(Hadoop原生工具),将数据迁移到阿里云EMR集群,目标存储包括HDFS,阿里云OSS和阿里云EMR的Jindo
本实践方案基于如下图所示的技术架构和主要流程编写操作步骤:
在进行本文操作之前,您需要完成以下准备工作:
本实践方案中,使用上海VPC环境模拟客户IDC网络,主要安装以下组件:
(1) 在ECS上安装FlexGW VPN,用于模拟客户IDC网络中的VPN网关;
(2) 在ECS上安装Apache日志模拟器,用于生成Apache格式的日志信息;
(3) 在ECS上安装Kafka,用于集中存储Flume发送的日志;
(4) 在ECS上安装3节点的Hadoop集群,其中的HDFS用于集中保存日志数据信息。
步骤1 登录专有网络VPC产品控制台。
步骤2 单击创建专有网络。
步骤3 在创建专有网络页面,参考下表,配置专有网络和交换机相关参数,并单击确定。
步骤4 等待专有网络和交换机创建成功后,单击完成。
创建ECS实例
步骤1 登录上海区域的ECS产品控制台。
步骤2 单击右上角的创建实例。
步骤3 在自定义购买模式下,配置相关参数。
参考下表,配置基础配置相关内容。
配置完成,单击下一步:网络和安全组。
单击查看历史价格 ,在抢占式实例历史价格走势图中,可以看到可用区F的实例当前市场价格为0.034,因此,我们设置单台上限价为0.04,要求略高于当前市场价格。
步骤4 在网络和安全组页面,参考下表,配置相关参数。
配置完成,单击下一步:系统配置。
步骤5 在系统配置页面,参考下表,配置相关参数。
配置完成,单击确认订单。
步骤6 在确认订单页面,确认各项参数信息。确认无误,阅读、同意并勾选《云服务器ECS服务条款》和《镜像商品使用条款》,并单击创建实例。
步骤7 创建任务提交成功后,单击管理控制台前往ECS实例列表页面查看详情。为了在控制台便于识别ECS的用途,首先将实例名称修改为如下图所示:
步骤8 将Kafka队列和FlexGW VPN这两个实例关机,将系统盘更换为云市场的镜像,节省基础环境部署时间。
步骤9 首先为FlexGW VPN网关实例更换系统盘。
步骤10 参考步骤9为Kafka队列实例更换系统盘,选择下面的镜像。
(可选)配置安全组
在实例所在安全组中确认22、80和443端口的放通情况,如果有未放通端口,请按照下面步骤进行放通。
步骤1 在ECS控制台,单击FlexGW VPN网关实例操作列下的管理 。
步骤2 在左侧导航栏单击本实例安全组。
步骤3 单击对应安全组操作列下的配置规则。
步骤4 在入方向页签下,单击快速创建规则。
步骤5 在快速创建规则对话框中,根据下图配置相关参数,并单击确定 。
阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区数个Spark技术同学每日在线答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!