Какой самый Pythonic способ идентифицировать последовательные дубликаты в списке? - PullRequest
27 голосов
/ 15 июня 2011

У меня есть список целых чисел, и я хочу иметь возможность идентифицировать смежные блоки дубликатов: то есть я хочу создать сохраняющий порядок список дубликатов, в котором каждый из них содержит (int_in_question, количество вхождений).

Например, если у меня есть список вроде:

[0, 0, 0, 3, 3, 2, 5, 2, 6, 6]

Я хочу, чтобы результат был:

[(0, 3), (3, 2), (2, 1), (5, 1), (2, 1), (6, 2)]

У меня есть довольно простой способ сделать это с помощью цикла for, temp и счетчика:

result_list = []
current = source_list[0]
count = 0
for value in source_list:
    if value == current:
        count += 1
    else:
        result_list.append((current, count))
        current = value
        count = 1
result_list.append((current, count))

Но мне действительно нравятся идиомы функционального программирования на python, и я бы хотел сделать это с помощьюпростое выражение генератора.Однако мне трудно вести подсчет при работе с генераторами.У меня такое ощущение, что двухэтапный процесс может привести меня туда, но сейчас я в замешательстве.

Есть ли особенно элегантный / питонный способ сделать это, особенно с генераторами?

1 Ответ

49 голосов
/ 15 июня 2011
>>> from itertools import groupby
>>> L = [0, 0, 0, 3, 3, 2, 5, 2, 6, 6]
>>> grouped_L = [(k, sum(1 for i in g)) for k,g in groupby(L)]
>>> # Or (k, len(list(g))), but that creates an intermediate list
>>> grouped_L
[(0, 3), (3, 2), (2, 1), (5, 1), (2, 1), (6, 2)]

Батареи включены , как говорится.

Предложение по использованию sum и генератора выражений из JBernardo; см. комментарий.

...