实战 | ELK实现全量Elastic日报（2017-2019）多维度可视化分析

更新时间：2022-10-04 08:38:36

链接

1、需求

当成一个小项目处理，自定义下需求。

想象一下，导入Elastic日报能在Kibana做哪些分析呢？

1）title 词频统计

2）编辑发布文章统计

3）2017，2018，2019日报量统计

4）日报按月统计

5）编辑发日报时间按区间统计

6）关键词检索，如：性能、设计、优化、实战等

7）…

的确，有了数据，能实现N多分析！

2、架构设计

实战 | ELK实现全量Elastic日报（2017-2019）多维度可视化分析

架构层面要考虑的核心工作：

1、模块划分

可分为几个模块：爬虫模块、同步模块、存储检索模块、可视化模块。

2、数据流

爬虫->Mysql->logstash->ES->Kibana

3、数据ETL

日报数据算是半结构化数据，需要自定义正则解析、抽取后才能做分析用。

日期字段的时区原因，需要借助logstash filter进行日期格式转换。

4、数据存储建模

一方面：同步数据格式的定义；

另一方面：为后续可视化做数据铺垫。

3、爬虫模块

3.1 抓包分析网页

步骤1：根据需求，结合postman抓包分析日报模块的请求和返回内容。

步骤2：评估核心字段（标题、URL、编辑、发布时间等）是否好获取。

3.2 日报解析

Java + Jsoup + 正则分页解析、并构造出字段信息。

记录了第几期日报字段，且给每一篇文章构造定义了唯一id。

实战 | ELK实现全量Elastic日报（2017-2019）多维度可视化分析

3.3 日报入库

写入Mysql。

坑1：日期字段设置timestamp，避免精度损失，影响后面的分析。

实战 | ELK实现全量Elastic日报（2017-2019）多维度可视化分析

4、同步模块

借助logstash_input_jdbc实现Mysql到ES的同步。

坑1：为便于后续字段的自定义分析，务必不要使用动态映射，全部字段提前自定义。下一节详细论述。

坑2：同步ES后默认时区为ETC，发布时间会比实际落后8小时。需要filter阶段处理。

核心处理如下：

filter {

date {

match => ["publish_time", "yyyy-MM-dd HH:mm:ss"]

target => "publish_time"

timezone => "Asia/Shanghai"

}

ruby {

code => "event.set('timestamp', event.get('publish_time').time.localtime + 8*60*60)"

}

ruby {

code => "event.set('publish_time',event.get('timestamp'))"

}

mutate {

remove_field => ["timestamp"]

}

5、存储分析模块

最核心就是Mapping的定义。如前分析，要自定义Mapping各字段，不要使用默认动态的Mapping。

原因1、string类型全部解析为：text和keyword，实际我们不一定需要，会浪费存储空间。

原因2：采用默认分词器analyzer，实际我们需要自定义分词：采用中文ik分词，使用ik_max_word或者ik_smart进行自定义分词。

为便于后续扩展和维护，使用template、alias实现。

坑1：第一次导入分词结果不理想，可能会有大量的停用词。比如：1、2、3、的、你、日、中、在、与、来、一、二、三、到等。

处理方案：在stopword.dic添加如上关键词，重启ES，重建索引并再次导入数据。

坑2：text类型的字段聚合。

处理方案：定义索引Mapping的时候，指定"fielddata": "true",

实战 | ELK实现全量Elastic日报（2017-2019）多维度可视化分析

3.3 日报入库

相关阅读

推荐文章