《Python Cookbook（第3版）中文版》——1.10　从序列中移除重复项且保持元素间顺序不变

更新时间：2022-09-12 11:51:33

本节书摘来自异步社区《Python Cookbook（第3版）中文版》一书中的第1章，第1.10节，作者[美]David Beazley , Brian K.Jones，陈舸译，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.10　从序列中移除重复项且保持元素间顺序不变

1.10.1　问题

我们想去除序列中出现的重复元素，但仍然保持剩下的元素顺序不变。

1.10.2　解决方案

如果序列中的值是可哈希（hashable）的，那么这个问题可以通过使用集合和生成器轻松解决。示例如下[1]：

def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

这里是如何使用这个函数的例子：

>>> a = [1, 5, 2, 1, 9, 1, 5, 10]
>>> list(dedupe(a))
[1, 5, 2, 9, 10]
>>>

只有当序列中的元素是可哈希的时候才能这么做。如果想在不可哈希的对象（比如列表）序列中去除重复项，需要对上述代码稍作修改：

def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

这里参数key的作用是指定一个函数用来将序列中的元素转换为可哈希的类型，这么做的目的是为了检测重复项。它可以像这样工作：

>>> a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
>>> list(dedupe(a, key=lambda d: (d['x'],d['y'])))
[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]
>>> list(dedupe(a, key=lambda d: d['x']))
[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]
>>>

如果希望在一个较复杂的数据结构中，只根据对象的某个字段或属性来去除重复项，那么后一种解决方案同样能完美工作。

1.10.3　讨论

如果想要做的只是去除重复项，那么通常足够简单的办法就是构建一个集合。例如：

>>> a
[1, 5, 2, 1, 9, 1, 5, 10]
>>> set(a)
{1, 2, 10, 5, 9}
>>>

但是这种方法不能保证元素间的顺序不变[2]，因此得到的结果会被打乱。前面展示的解决方案可避免出现这个问题。

本节中对生成器的使用反映出一个事实，那就是我们可能会希望这个函数尽可能的通用——不必绑定在只能对列表进行处理。比如，如果想读一个文件，去除其中重复的文本行，可以只需这样处理：

with open(somefile,'r') as f:
    for line in dedupe(f):
        ...

上一篇 : ：CYQ.Data 轻量数据层之路强势V1.5 问世支持winform下使用(十七）下一篇 : 物联网公司Ayla：帮中国智能硬件卖到欧美

《Python Cookbook（第3版）中文版》——1.10　从序列中移除重复项且保持元素间顺序不变

1.10　从序列中移除重复项且保持元素间顺序不变

1.10.1　问题

1.10.2　解决方案

1.10.3　讨论

相关阅读

推荐文章

《Python Cookbook（第3版）中文版》——1.10 从序列中移除重复项且保持元素间顺序不变

1.10 从序列中移除重复项且保持元素间顺序不变

1.10.1 问题

1.10.2 解决方案

1.10.3 讨论

相关阅读

推荐文章

《Python Cookbook（第3版）中文版》——1.10　从序列中移除重复项且保持元素间顺序不变

1.10　从序列中移除重复项且保持元素间顺序不变

1.10.1　问题

1.10.2　解决方案

1.10.3　讨论