《Python和HDF 5大数据应用》——第1章简介 1.1 Python和HDF5

更新时间：2022-09-12 20:18:24

本节书摘来自异步社区《Python和HDF 5大数据应用》一书中的第1章，第1.1节，作者［美］Andrew Collette（科莱特），胡世杰译，更多章节内容可以访问云栖社区“异步社区”公众号查看。

第1章简介

我刚毕业那会遇到过一个严重的问题——一部国家公认的等离子体研究设备花了整整一周时间收集的上千万个数据的值不太对劲。

比正常情况小了约40个数量级。

我跟我的咨询师挤在他的办公室，在一台崭新的G5 Mac Pro上运行我们的可视化软件，试图搞明白哪里出了问题。从机器中获得的数据是正确的，实验所使用的数字转换器提交的原始数据看上去没有问题。我在Thinkpad笔记本上用IDL语言编写了一个巨大的脚本将原始数据转换成可视化软件能够识别的文件。这些文件的格式十分简单：一个简短的定长头部后面加上一堆二进制浮点数据。我还另外又花了一个小时写了一个程序来验证这些文件，它们也没问题。但当我将所有这些在IDL中看上去如此优雅的数据导入可视化软件以后，它们看上去就像是一锅粥，毫无特色、杂乱无章，所有的值大约都只有10−41左右。

最后我们发现了问题所在：数字转换器和我的Thinkpad使用了“little-endian”格式，而G5 Mac使用了“big-endian”格式。一台机器输出的原始数据值无法被另一台机器正确地读入，反过来也一样。当时我所有想法中最有礼貌的一句是：这也太笨了。哪怕最后发现此类问题是如此司空见惯以至于IDL专门提供了一个SWAP_ENDIAN函数来处理也并没有令我的情绪变得更好。

在此之前我从不关心数据是如何存储的。这个事件以及其他一些类似事件改变了我的想法。作为一名科学家，我最终意识到，我们不仅需要选择数据的组织和存储，同时也需要选择数据的通信方式。设计优雅的标准格式不仅让每个人的生活变得简单（消除了上面愚蠢而又浪费时间的“endian”问题），而且也使得全世界都能共享这些数据。

1.1　Python和HDF5

在Python的世界里，人们在数值类型大数据的存储机制上进行选择时，迅速对层次性数据格式第5版（Hierarchical Data Format version 5，HDF5）达成了共识。当数据量越来越大的时候，数据的组织就变得越来越重要。命名数据集（第3章）、层次性分组（第5章）和用户自定义元数据“特征”（第6章）等HDF5特性对于数据分析的过程极为必要。

HDF5这种结构化的自我描述格式跟Python相辅相成。目前HDF5已经有两大开发成熟、功能丰富的Python接口模块h5py和PyTables，在两者之上还有许多为特定用途开发的小型封装模块。

1.1.1　数据和元数据的组织

这是一个利用HDF5的结构化能力帮助应用程序的简单例子。不要太担心文件结构和HDF5使用API等方面的细节，后续章节自会一一解释。就把这个当成是一次HDF5尝鲜。如果你想要运行这个例子，你需要Python 2并安装NumPy（第2章）。

假设我们有一个NumPy数组，它代表了某次实验获取的一些数据：