更新时间:2022-07-06 21:59:29
对于大部分开发者而言,经常会面临这样一种场景:“我知道日志数据很宝贵,但今天没有明确需求,能否有一种成本很低的方案先把日志备份起来,不占用空间。有一天有明确需求时,能够快速、方便分析日志”。
日志服务推出 LogShipper功能就是为了该问题诞生的,LogShipper可以便捷地将日志数据投递到OSS、ODPS等存储类服务,配合EMR(Spark、Hive)等离线计算,以最小成本支撑这类需求。
LogShipper是LogHub后续消费者,用以将实时流数据,转化为离线块数据。目前支持OSS、ODPS两种存储。即将会支持OTS(表格存储)、OAS(归档服务)等更多存储服务。
该方案在日志服务中位置:
方案优势:
数据产生到通过LogShipper投递时间:
整个数据生命周期看,比较适合准实时、T+1、以及长时间归档的场景。对于实时性更高的要求,可以通过LogHub接口进行Pull模式流式消费(<3秒),可以参考 storm、spark streaming
小A维护了一个论坛,需要对论坛所有访问日志进行审计和离线分析
小A使用日志服务(LOG)收集服务器上日志数据,并且打开了日志投递(LogShipper)功能,日志服务就会自动完成日志收集、投递、以及压缩。有审查需要时,可以将该时间段日志授权给第三方。需要离线分析时,利用EMR跑一个30分钟离线任务,用最少的成本办了两件事情。
小B是一个开源软件爱好者,喜欢利用Spark进行数据分析,他的需求如下:
通过今天LOG+OSS+EMR+RAM组合,可轻松应对这类需求