Преобразование списка объектов в список целых чисел и таблицу поиска - PullRequest
4 голосов
/ 09 сентября 2009

Чтобы проиллюстрировать, что я имею в виду, вот пример

messages = [
  ('Ricky',  'Steve',  'SMS'),
  ('Steve',  'Karl',   'SMS'),
  ('Karl',   'Nora',   'Email')

Я хочу преобразовать этот список и определение групп в список целых чисел и словарь поиска, чтобы каждый элемент в группе получил уникальный идентификатор. Этот идентификатор должен отображаться на элемент в таблице поиска, как это

messages_int, lookup_table = create_lookup_list(
              messages, ('person', 'person', 'medium'))

print messages_int
[ (0, 1, 0),
  (1, 2, 0),
  (2, 3, 1) ]

print lookup_table
{ 'person': ['Ricky', 'Steve', 'Karl', 'Nora'],
  'medium': ['SMS', 'Email']

Интересно, есть ли элегантное и питонское решение этой проблемы?

Я также открыт для лучшей терминологии, чем create_lookup_list и т. Д.

Ответы [ 7 ]

3 голосов
/ 10 сентября 2009

defaultdict в сочетании с методом itertools.count().next является хорошим способом присвоения идентификаторов уникальным элементам. Вот пример того, как применить это в вашем случае:

from itertools import count
from collections import defaultdict

def create_lookup_list(data, domains):
    domain_keys = defaultdict(lambda:defaultdict(count().next))
    out = []
    for row in data:
        out.append(tuple(domain_keys[dom][val] for val, dom in zip(row, domains)))
    lookup_table = dict((k, sorted(d, key=d.get)) for k, d in domain_keys.items())
    return out, lookup_table

Редактировать: обратите внимание, что count().next становится count().__next__ или lambda: next(count()) в Python 3.

2 голосов
/ 10 сентября 2009

В ответе Отто (или у кого-то еще со строчками -> id) я бы заменил (если твоя вещь одержима скоростью):

# create the lookup table
lookup_dict = {}
for group in indices:
    lookup_dict[group] = sorted(indices[group].keys(),
            lambda e1, e2: indices[group][e1]-indices[group][e2])


# k2i must map keys to consecutive ints [0,len(k2i)-1)
def inverse_indices(k2i):
    for k,i in k2i.iteritems():
    return inv

lookup_table = dict((g,inverse_indices(gi)) for g,gi in indices.iteritems()) 

Это лучше, потому что прямое назначение каждому элементу в обратном массиве напрямую быстрее, чем сортировка.

2 голосов
/ 10 сентября 2009

Шахты примерно одинаковой длины и сложности:

import collections

def create_lookup_list(messages, labels):

    # Collect all the values
    lookup = collections.defaultdict(set)
    for msg in messages:
        for l, v in zip(labels, msg):

    # Make the value sets lists
    for k, v in lookup.items():
        lookup[k] = list(v)

    # Make the lookup_list
    lookup_list = []
    for msg in messages:
        lookup_list.append([lookup[l].index(v) for l, v in zip(labels, msg)])

    return lookup_list, lookup
1 голос
/ 10 сентября 2009

Это немного проще и прямее.

from collections import defaultdict

def create_lookup_list( messages, schema ):
    def mapped_rows( messages ):
        for row in messages:
            newRow= []
            for col, value in zip(schema,row):
                if value not in lookups[col]:
                code= lookups[col].index(value)
            yield newRow
    lookups = defaultdict(list)
    return list( mapped_rows(messages) ), dict(lookups)  

Если бы поиски были правильными словарями, а не списками, это можно было бы еще больше упростить.
Сделайте так, чтобы ваша «справочная таблица» имела следующую структуру

{ 'person': {'Ricky':0, 'Steve':1, 'Karl':2, 'Nora':3},
  'medium': {'SMS':0, 'Email':1}

И это может быть дополнительно уменьшено в сложности.

Вы можете превратить эту рабочую копию поисков в обратную:

>>> lookups = { 'person': {'Ricky':0, 'Steve':1, 'Karl':2, 'Nora':3},
      'medium': {'SMS':0, 'Email':1}
>>> dict( ( d, dict( (v,k) for k,v in lookups[d].items() ) ) for d in lookups )
{'person': {0: 'Ricky', 1: 'Steve', 2: 'Karl', 3: 'Nora'}, 'medium': {0: 'SMS', 1: 'Email'}}
1 голос
/ 09 сентября 2009

Вот мое собственное решение - я сомневаюсь, что оно лучшее

def create_lookup_list(input_list, groups):
    # use a dictionary for the indices so that the index lookup 
    # is fast (not necessarily a requirement)
    indices = dict((group, {}) for group in groups) 
    output = []

    # assign indices by iterating through the list
    for row in input_list:
        newrow = []
        for group, element in zip(groups, row):
            if element in indices[group]:
                index = indices[group][element]
                index = indices[group][element] = len(indices[group])

    # create the lookup table
    lookup_dict = {}
    for group in indices:
        lookup_dict[group] = sorted(indices[group].keys(),
                lambda e1, e2: indices[group][e1]-indices[group][e2])

    return output, lookup_dict
0 голосов
/ 10 сентября 2009

Вот мое, внутренняя функция позволяет мне написать кортеж индекса как генератор.

def create_lookup_list( data, format):
    table = {}
    indices = []
    def get_index( item, form ):
        row = table.setdefault( form, [] )
            return row.index( item )
        except ValueError:
            n = len( row )
            row.append( item )
            return n
    for row in data:
        indices.append( tuple( get_index( item, form ) for item, form in zip( row, format ) ))

    return table, indices
0 голосов
/ 10 сентября 2009

Вот мое решение, оно не лучше - оно просто другое:)

def create_lookup_list(data, keys):
  encoded = []
  table = dict([(key, []) for key in keys])

  for record in data:
      msg_int = []
      for key, value in zip(keys, record):
          if value not in table[key]:

  return encoded, table
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.