更新时间:2022-08-18 15:38:21
PDF是非常常见的数据来源,尤其见于公司的各种报告和报表中。将PDF中的数据提取出来并做相应的整合在通常情况下我们只能借助IT人员的帮助,编写复杂的代码或者使用数据提取软件在多个平台上重复操作。这些方法增加了时间成本和人工成本,使数据获取和准备工作变得繁琐无趣让人厌烦。那么有没有一种工具无需任何编码可以同时解决PDF数据获取和整合,以及数据处理和操作,最后直接导出这些工作呢?
今天我就为大家介绍一款快30年历史的专业数据准备软件Altair Monarch Data Prep Studio(以下简称为Altair Monarch)。
本篇文章主要讲解如何利用Altair Monarch数据准备工具快速准确的提取非结构化PDF数据,并根据关键词合并多页PDF内容。从而提高数据准确性,让数据工作变得轻松快乐。
Altair Monarch主要有以下功能:
第一, Altair Monarch 目前内置的48个数据连接口可以从几乎任何数据来源中快速、简单的提取需要的数据,主要包括:
• 直接导入结构化数据表,如Excel等;
• 将非结构化数据,如PDF、文本、网页等,转化为行与列的标准结构数据;
• 从关系型和非关系型数据库中导入数据表,如SQL、Hadoop等;
• 从第三方软件中导入数据,如Salesforce、SAP等;
数据连接口的多样性使数据录入工作变得方便快捷、对IT人才的依赖大大降低、同时减少人工成本,使业务人员不必为了收集数据的事情浪费时间。
第二, Altair Monarch提供多种数据处理功能,无需任何编码,鼠标点击即可完成。
主要的操作功能列表:
• 数据处理,如缺失值填充、单元值拆分、自定义计算函数等;
• 数据表转换,如多列排序、透视表、分组汇总、去重等;
• 数据表合并,如内连接、左/右连接、多表格附加等;
• 数据多字符列汇总分析等;
由于软件无编码要求,任何人都可以短时间内快速上手。同时更突出的优势在于所有的操作都可保存下来,重复使用。
第三, Altair Monarch 可将处理后的标准化数据导出,衔接其他常用的数据和可视化软件。
假如我们现在有如下PDF报账单(图一),要将其中关键内容提出,整理成如图二所示Excel中标准结构数据。主要分为以下步骤:
PDF格式的报账单样本:
利用Monarch提取形成的行与列表格:
Altair Monarch解决方案:
(1)打开Altair Monarch软件,打开后主页面如下,点击OPEN DATA并选择PDF&TEXT,双击其中的PDF Report。选择PDF数据来源,导入数据。
(2)自动或手动抓取数据和合并字段
在打开后的PDF报告界面中,有两种方法抓取和合并数据与字段:
自动:在左边模板(Templates)中点击自动定义(Auto Define),软件将自动识别关键词,多数情况下自动识别可以满足我们的需求。
手动:若需要手动定义模板,则在页面的捕捉内容框中输入对应的关键词就可以快速抓取PDF每页的对应信息并合并。
下图是进行PDF数据信息提取的界面,可以看出,我们在设置好提取规则后,数据很整齐的出现在界面的右下方。
(3)数据处理和转换
完成上述数据提取后,可加载以行列标准化呈现的数据于数据准备 (PREPARE) 界面中。该界面包含了大量关于数值的操作,并提供数据表和改变历史的追踪,使每一步都清晰可查。也可以点击数据转换 (TRANSFORM) 对其进行数据转置、分组等。
(4)数据表合并和附加
点击数据表合并 (COMBINE) 可以选择数据表的合并方式为左右连接或上下附加,通过简单的表格拖拉即可完成多表的合并。
(5)数据表导出
通过Altair Monarch数据准备软件,可以轻松解决PDF等非结构化数据的提取问题,并完美覆盖几乎全部的数据处理和导出步骤,让杂乱无序的数据发挥应有的价值!