Question

Мне не удалось найти понятного объяснения того, как на самом деле использовать функцию Python itertools.groupby(). То, что я пытаюсь сделать, это:

Возьмите список - в этом случае дочерние элементы объективированного lxml элемента
Разделите его на группы по некоторым критериям
Затем итерируйте каждую из этих групп отдельно.

Я просмотрел документацию и примеры , но у меня возникли проблемы при попытке применить их за пределами простого списка чисел.

Итак, как мне использовать itertools.groupby()? Есть ли другая техника, которую я должен использовать? Также будет приветствоваться указатель на хорошее «предварительное» чтение.

James Sulak · Answer 1 · 10 августа 2008

ВАЖНОЕ ПРИМЕЧАНИЕ: Вы должны сначала отсортировать данные .

Часть, которую я не получил, состоит в том, что в примере конструкции

groups = []
uniquekeys = []
for k, g in groupby(data, keyfunc):
   groups.append(list(g))    # Store group iterator as a list
   uniquekeys.append(k)

k - текущий ключ группировки, а g - итератор, который можно использовать для перебора группы, определенной этим ключом группировки. Другими словами, сам итератор groupby возвращает итераторы.

Вот пример этого, используя более ясные имена переменных:

from itertools import groupby

things = [("animal", "bear"), ("animal", "duck"), ("plant", "cactus"), ("vehicle", "speed boat"), ("vehicle", "school bus")]

for key, group in groupby(things, lambda x: x[0]):
    for thing in group:
        print "A %s is a %s." % (thing[1], key)
    print " "

Это даст вам вывод:

Медведь - это животное.
Утка это животное.

Кактус - это растение.

Скоростной катер - это транспортное средство.
Школьный автобус - это транспортное средство.

В этом примере things - это список кортежей, где первый элемент в каждом кортеже - это группа, к которой принадлежит второй элемент.

Функция groupby() принимает два аргумента: (1) данные для группировки и (2) функция для группировки.

Здесь lambda x: x[0] указывает groupby() использовать первый элемент в каждом кортеже в качестве ключа группировки.

В приведенном выше операторе for groupby возвращает три пары (ключ, групповой итератор) - по одному для каждого уникального ключа. Вы можете использовать возвращенный итератор для перебора каждого отдельного элемента в этой группе.

Вот немного другой пример с теми же данными, использующими понимание списка:

for key, group in groupby(things, lambda x: x[0]):
    listOfThings = " and ".join([thing[1] for thing in group])
    print key + "s:  " + listOfThings + "."

Это даст вам вывод:

животные: медведь и утка.
растения: кактус.
транспортные средства: скоростной катер и школьный автобус.

Seb · Answer 2 · 03 августа 2008

Можете ли вы показать нам свой код?

Пример на документации по Python довольно прост:

groups = []
uniquekeys = []
for k, g in groupby(data, keyfunc):
    groups.append(list(g))      # Store group iterator as a list
    uniquekeys.append(k)

Итак, в вашем случае data - это список узлов, keyfunc - это то место, куда идет логика функции вашего критерия, а затем groupby() группирует данные.

Вы должны быть осторожны, чтобы отсортировать данные по критериям, прежде чем позвонить groupby, иначе они не будут работать. groupby Метод на самом деле просто перебирает список и при каждом изменении ключа создает новую группу.

pylang · Answer 3 · 25 августа 2017

itertools.groupby - инструмент для группировки предметов.

Из документов мы рассмотрим подробнее, что он может сделать:

# [k for k, g in groupby('AAAABBBCCDAABBB')] --> A B C D A B

# [list(g) for k, g in groupby('AAAABBBCCD')] --> AAAA BBB CC D

groupby объекты дают пары групп ключей, где группа является генератором.

Особенности

а. Группировка последовательных элементов вместе
B. Сгруппировать все вхождения элемента по отсортированной итерации
C. Укажите, как группировать элементы с помощью ключевой функции

Сравнения

# Define a printer for comparing outputs
>>> def print_groupby(iterable, key=None):
...    for k, g in it.groupby(iterable, key):
...        print("key: '{}'--> group: {}".format(k, list(g)))

# Feature A: group consecutive occurrences
>>> print_groupby("BCAACACAADBBB")
key: 'B'--> group: ['B']
key: 'C'--> group: ['C']
key: 'A'--> group: ['A', 'A']
key: 'C'--> group: ['C']
key: 'A'--> group: ['A']
key: 'C'--> group: ['C']
key: 'A'--> group: ['A', 'A']
key: 'D'--> group: ['D']
key: 'B'--> group: ['B', 'B', 'B']

# Feature B: group all occurrences
>>> print_groupby(sorted("BCAACACAADBBB"))
key: 'A'--> group: ['A', 'A', 'A', 'A', 'A']
key: 'B'--> group: ['B', 'B', 'B', 'B']
key: 'C'--> group: ['C', 'C', 'C']
key: 'D'--> group: ['D']

# Feature C: group by a key function
>>> key = lambda x: x.islower()
>>> print_groupby(sorted("bCAaCacAADBbB"), key)
key: 'False'--> group: ['A', 'A', 'A', 'B', 'B', 'C', 'C', 'D']
key: 'True'--> group: ['a', 'a', 'b', 'b', 'c']

Использует

Примечание. Несколько последних примеров взяты из PyCon Виктора Террона (разговор) (испанский) , "Кунг-фу на рассвете с Itertools". См. Также groupby исходный код , написанный на C.

Ответ

# OP: Yes, you can use `groupby`, e.g. 
[do_something(list(g)) for _, g in groupby(lxml_elements, key=criteria_func)]

nimish · Answer 4 · 01 сентября 2008

Простой трюк с groupby заключается в запуске кодирования длины в одну строку:

[(c,len(list(cgen))) for c,cgen in groupby(some_string)]

выдаст вам список из двух кортежей, где первый элемент - это символ, а второй - количество повторений.

Edit: Обратите внимание, что это то, что отделяет itertools.groupby от семантики SQL GROUP BY: itertools не (и вообще не может) заранее сортировать итератор, поэтому группы с одинаковым «ключом» т слился.

user650654 · Answer 5 · 21 января 2013

Другой пример:

for key, igroup in itertools.groupby(xrange(12), lambda x: x // 5):
    print key, list(igroup)

результаты в

0 [0, 1, 2, 3, 4]
1 [5, 6, 7, 8, 9]
2 [10, 11]

Обратите внимание, что igroup является итератором (суб-итератор, как называется в документации).

Это полезно для разбиения генератора на части:

def chunker(items, chunk_size):
    '''Group items in chunks of chunk_size'''
    for _key, group in itertools.groupby(enumerate(items), lambda x: x[0] // chunk_size):
        yield (g[1] for g in group)

with open('file.txt') as fobj:
    for chunk in chunker(fobj):
        process(chunk)

Еще один пример группировки - когда ключи не отсортированы. В следующем примере элементы в xx сгруппированы по значениям в yy. В этом случае сначала выводится один набор нулей, затем набор единиц, а затем снова набор нулей.

xx = range(10)
yy = [0, 0, 0, 1, 1, 1, 0, 0, 0, 0]
for group in itertools.groupby(iter(xx), lambda x: yy[x]):
    print group[0], list(group[1])

Производит:

0 [0, 1, 2]
1 [3, 4, 5]
0 [6, 7, 8, 9]

RussellStewart · Answer 6 · 16 ноября 2013

ВНИМАНИЕ:

Список синтаксиса (groupby (...)) не будет работать так, как вы хотите. Кажется, он разрушает внутренние объекты итератора, поэтому

for x in list(groupby(range(10))):
    print(list(x[1]))

даст:

[]
[]
[]
[]
[]
[]
[]
[]
[]
[9]

Вместо списка (groupby (...)) попробуйте [(k, list (g)) для k, g в groupby (...)] или, если вы часто используете этот синтаксис,

def groupbylist(*args, **kwargs):
    return [(k, list(g)) for k, g in groupby(*args, **kwargs)]

и получите доступ к групповым функциям, избегая этих надоедливых (для маленьких данных) итераторов вместе.

kiriloff · Answer 7 · 08 мая 2013

Я хотел бы привести еще один пример, в котором groupby без сортировки не работает. Адаптировано на примере Джеймсом Сулаком

from itertools import groupby

things = [("vehicle", "bear"), ("animal", "duck"), ("animal", "cactus"), ("vehicle", "speed boat"), ("vehicle", "school bus")]

for key, group in groupby(things, lambda x: x[0]):
    for thing in group:
        print "A %s is a %s." % (thing[1], key)
    print " "

вывод

A bear is a vehicle.

A duck is a animal.
A cactus is a animal.

A speed boat is a vehicle.
A school bus is a vehicle.

есть две группы с транспортным средством, тогда как можно ожидать только одну группу

pedromanoel · Answer 8 · 15 октября 2009

@ CaptSolo, я попробовал ваш пример, но он не сработал.

from itertools import groupby 
[(c,len(list(cs))) for c,cs in groupby('Pedro Manoel')]

Выход:

[('P', 1), ('e', 1), ('d', 1), ('r', 1), ('o', 1), (' ', 1), ('M', 1), ('a', 1), ('n', 1), ('o', 1), ('e', 1), ('l', 1)]

Как вы можете видеть, есть два o и два e, но они попали в отдельные группы. Именно тогда я понял, что вам нужно отсортировать список, переданный функции groupby. Итак, правильное использование будет:

name = list('Pedro Manoel')
name.sort()
[(c,len(list(cs))) for c,cs in groupby(name)]

Выход:

[(' ', 1), ('M', 1), ('P', 1), ('a', 1), ('d', 1), ('e', 2), ('l', 1), ('n', 1), ('o', 2), ('r', 1)]

Просто запомните, что если список не отсортирован, функция группировки не будет работать !

Satyajit Das · Answer 9 · 01 августа 2017

Сортировка и групповой сбор

from itertools import groupby

val = [{'name': 'satyajit', 'address': 'btm', 'pin': 560076}, 
       {'name': 'Mukul', 'address': 'Silk board', 'pin': 560078},
       {'name': 'Preetam', 'address': 'btm', 'pin': 560076}]


for pin, list_data in groupby(sorted(val, key=lambda k: k['pin']),lambda x: x['pin']):
...     print pin
...     for rec in list_data:
...             print rec
... 
o/p:

560076
{'name': 'satyajit', 'pin': 560076, 'address': 'btm'}
{'name': 'Preetam', 'pin': 560076, 'address': 'btm'}
560078
{'name': 'Mukul', 'pin': 560078, 'address': 'Silk board'}

Aaron Hall · Answer 10 · 27 июля 2015

Как использовать itertools.groupby () в Python?

Вы можете использовать groupby, чтобы группировать вещи для повторения. Вы даете groupby итеративный и необязательный key function / callable, с помощью которого проверяются элементы, когда они выходят из итерируемого, и он возвращает итератор, который дает двукратный набор результата ключа вызываемые и фактические элементы в другой итерации. Из справки:

groupby(iterable[, keyfunc]) -> create an iterator which returns
(key, sub-iterator) grouped by each value of key(value).

Ниже приведен пример группирования с использованием сопрограммы для группировки по счетчику. Он использует вызываемый ключ (в данном случае coroutine.send), чтобы просто подсчитать счетчик для сколь угодно большого количества итераций и сгруппированный субитератор элементов:

import itertools


def grouper(iterable, n):
    def coroutine(n):
        yield # queue up coroutine
        for i in itertools.count():
            for j in range(n):
                yield i
    groups = coroutine(n)
    next(groups) # queue up coroutine

    for c, objs in itertools.groupby(iterable, groups.send):
        yield c, list(objs)
    # or instead of materializing a list of objs, just:
    # return itertools.groupby(iterable, groups.send)

list(grouper(range(10), 3))

печать

[(0, [0, 1, 2]), (1, [3, 4, 5]), (2, [6, 7, 8]), (3, [9])]

Как я могу использовать Python itertools.groupby ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 12 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу использовать Python itertools.groupby ()?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 12 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы