关于循环：python:dict列表，如果存在，则递增dict值，如果不附加新dict

Python : List of dict, if exists increment a dict value, if not append a new dict

我想做那样的事。

1
2
3
4
5
6
7
8
9
10
11
12
13
14

list_of_urls = ['http://www.google.fr/', 'http://www.google.fr/',
'http://www.google.cn/', 'http://www.google.com/',
'http://www.google.fr/', 'http://www.google.fr/',
'http://www.google.fr/', 'http://www.google.com/',
'http://www.google.fr/', 'http://www.google.com/',
'http://www.google.cn/']

urls = [{'url': 'http://www.google.fr/', 'nbr': 1}]

for url in list_of_urls:
if url in [f['url'] for f in urls]:
urls[??]['nbr'] += 1
else:
urls.append({'url': url, 'nbr': 1})

我该怎么办？我不知道是应该用元组来编辑它，还是计算出元组索引？

有什么帮助吗？

这是一种非常奇怪的组织方式。如果您存储在字典中，这很容易：

1
2
3
4
5
6
7
8

# This example should work in any version of Python.
# urls_d will contain URL keys, with counts as values, like: {'http://www.google.fr/' : 1 }
urls_d = {}
for url in list_of_urls:
if not url in urls_d:
urls_d[url] = 1
else:
urls_d[url] += 1

更新计数字典的代码是Python中常见的"模式"。这是很常见的一种特殊的数据结构，即defaultdict，它的创建只是为了使这更容易：

1
2
3
4
5

from collections import defaultdict # available in Python 2.5 and newer

urls_d = defaultdict(int)
for url in list_of_urls:
urls_d[url] += 1

如果您使用密钥访问defaultdict，而该密钥尚未在defaultdict中，则该密钥将自动添加默认值。defaultdict接收您传入的可调用文件，并调用它以获取默认值。在本例中，我们传入了类int；当python调用int()时，它返回一个零值。所以，当您第一次引用一个URL时，它的计数被初始化为零，然后您向该计数中添加一个。

但是一个充满计数的字典也是一种常见的模式，所以python提供了一个随时可用的类：containers.Counter您只需通过调用类来创建一个Counter实例，并传入任何iterable；它构建一个字典，其中键是iterable中的值，值是iterable中键出现的次数。然后上面的例子变成：

1
2
3

from collections import Counter # available in Python 2.7 and newer

urls_d = Counter(list_of_urls)

如果你真的需要按照你展示的方式来做，最简单和最快的方法就是使用这三个例子中的任何一个，然后构建你需要的一个。

1
2
3
4
5
6
7

from collections import defaultdict # available in Python 2.5 and newer

urls_d = defaultdict(int)
for url in list_of_urls:
urls_d[url] += 1

urls = [{"url": key,"nbr": value} for key, value in urls_d.items()]

如果您使用的是python 2.7或更高版本，那么您可以在一行程序中完成它：

1
2
3

from collections import Counter

urls = [{"url": key,"nbr": value} for key, value in Counter(list_of_urls).items()]