Question

У меня есть словарь, в котором каждый ключ имеет список переменной длины, например:

d = {
 'a': [1, 3, 2],
 'b': [6],
 'c': [0, 0]
}

Есть ли чистый способ получить случайный словарный ключ, взвешенный по длине его значения? random.choice(d.keys()) будет взвешивать ключи одинаково, но в приведенном выше случае я хочу, чтобы 'a' был возвращен примерно наполовину.

James Thompson · Answer 1 · 29 июня 2009

Всегда ли вы знаете общее количество значений в словаре? В этом случае это может быть легко сделать с помощью следующего алгоритма, который можно использовать всякий раз, когда вы хотите сделать вероятностный выбор некоторых элементов из упорядоченного списка:

Переберите свой список ключей.
Генерирует равномерно распределенное случайное значение между 0 и 1 (он же «бросает кубик»).
Предполагая, что этот ключ имеет значения N_VALS, связанные с ним, и есть общие значения TOTAL_VALS во всем словаре, примите этот ключ с вероятностью N_VALS / N_REMAINING, где N_REMAINING - количество элементов, оставшихся в списке.

Преимущество этого алгоритма заключается в том, что нет необходимости создавать новые списки, что важно, если ваш словарь большой. Ваша программа платит только за цикл по ключам K для вычисления итогового значения, еще один цикл по ключам, который в среднем закончится на полпути, и сколько угодно будет сгенерировать случайное число от 0 до 1. Генерация такого случайного числа является очень распространенное приложение в программировании, поэтому большинство языков имеют быструю реализацию такой функции. В Python генератор случайных чисел реализация C алгоритма Mersenne Twister , которая должна быть очень быстрой. Кроме того, в документации утверждается, что эта реализация является поточно-ориентированной.

Вот код. Я уверен, что вы можете очистить его, если хотите использовать больше возможностей Pythonic:

#!/usr/bin/python

import random

def select_weighted( d ):
   # calculate total
   total = 0
   for key in d:
      total = total + len(d[key])
   accept_prob = float( 1.0 / total )

   # pick a weighted value from d
   n_seen = 0
   for key in d:
      current_key = key
      for val in d[key]:
         dice_roll = random.random()
         accept_prob = float( 1.0 / ( total - n_seen ) )
         n_seen = n_seen + 1
         if dice_roll <= accept_prob:
            return current_key

dict = {
   'a': [1, 3, 2],
   'b': [6],
   'c': [0, 0]
}

counts = {}
for key in dict:
   counts[key] = 0

for s in range(1,100000):
   k = select_weighted(dict)
   counts[k] = counts[k] + 1

print counts

После выполнения этого 100 раз, я получаю ключи выбора это количество раз:

{'a': 49801, 'c': 33548, 'b': 16650}

Это довольно близко к вашим ожидаемым значениям:

{'a': 0.5, 'c': 0.33333333333333331, 'b': 0.16666666666666666}

Редактировать: Майлз указал на серьезную ошибку в моей первоначальной реализации, которая с тех пор была исправлена. Извините за это!

sth · Answer 2 · 23 февраля 2010

Без создания нового, возможно большого списка с повторяющимися значениями:

def select_weighted(d):
   offset = random.randint(0, sum(d.itervalues())-1)
   for k, v in d.iteritems():
      if offset < v:
         return k
      offset -= v

A. Coady · Answer 3 · 29 июня 2009

Учитывая, что ваш dict помещается в памяти, метод random.choice должен быть разумным. Но если предположить иное, следующим методом будет использование списка увеличивающихся весов и использование деления пополам, чтобы найти случайно выбранный вес.

>>> import random, bisect
>>> items, total = [], 0
>>> for key, value in d.items():
        total += len(value)
        items.append((total, key))


>>> items[bisect.bisect_left(items, (random.randint(1, total),))][1]
'a'
>>> items[bisect.bisect_left(items, (random.randint(1, total),))][1]
'c'

David Seiler · Answer 4 · 29 июня 2009

Составьте список, в котором каждая клавиша повторяется количество раз, равное длине его значения. В вашем примере: ['a', 'a', 'a', 'b', 'c', 'c']. Тогда используйте random.choice().

Редактировать: или, менее элегантно, но более эффективно, попробуйте это: взять сумму длин всех значений в словаре, S (вы можете кэшировать и аннулировать это значение, или обновлять его при редактировании словарь, в зависимости от точного шаблона использования, который вы ожидаете). Сгенерируйте случайное число от 0 до S и выполните линейный поиск по словарным ключам, чтобы найти диапазон, в который попадает ваше случайное число.

Я думаю, что это лучшее, что вы можете сделать, не меняя и не добавляя в свое представление данных.

hughdbrown · Answer 5 · 17 июля 2009

Я бы сказал так:

random.choice("".join([k * len(d[k]) for k in d]))

Это дает понять, что каждый k в d получает столько же шансов, сколько длина его значения. Конечно, это полагаться на словарные ключи длиной 1, которые являются символами ....

Намного позже:

table = "".join([key * len(value) for key, value in d.iteritems()])
random.choice(table)

Rex Logan · Answer 6 · 29 июня 2009

Вот некоторый код, который основан на предыдущем ответе, который я дал для распределения вероятностей в python , но использует длину для установки веса. Он использует итеративную цепочку Маркова, так что ему не нужно знать, какова сумма всех весов. В настоящее время он рассчитывает максимальную длину, но если она слишком медленная, просто измените

  self._maxw = 1

до

  self._maxw = max lenght

и удалите

for k in self._odata:
     if len(self._odata[k])> self._maxw:
          self._maxw=len(self._odata[k])

Вот код.

import random


class RandomDict:
    """
    The weight is the length of each object in the dict.
    """

    def __init__(self,odict,n=0):
        self._odata = odict
        self._keys = list(odict.keys())
        self._maxw = 1  # to increase speed set me to max length
        self._len=len(odict)
        if n==0:
            self._n=self._len
        else:
            self._n=n
        # to increase speed set above max value and comment out next 3 lines
        for k in self._odata:
            if len(self._odata[k])> self._maxw:
                self._maxw=len(self._odata[k])


    def __iter__(self):
        return self.next()

    def next(self):
        while (self._len > 0) and (self._n>0):
            self._n -= 1
            for i in range(100):
                k=random.choice(self._keys)
                rx=random.uniform(0,self._maxw)
                if rx <= len(self._odata[k]): # test to see if that is the value we want
                    break
            # if you do not find one after 100 tries then just get a random one
            yield k

    def GetRdnKey(self):
        for i in range(100):
            k=random.choice(self._keys)
            rx=random.uniform(0,self._maxw)

            if rx <= len(self._odata[k]): # test to see if that is the value we want
                break
        # if you do not find one after 100 tries then just get a random one
        return k



#test code

d = {
 'a': [1, 3, 2],
 'b': [6],
 'c': [0, 0]
}


rd=RandomDict(d)

dc = {
 'a': 0,
 'b': 0,
 'c': 0
}
for i in range(100000):
    k=rd.GetRdnKey()
    dc[k]+=1

print("Key count=",dc)



#iterate over the objects

dc = {
 'a': 0,
 'b': 0,
 'c': 0
}

for k in RandomDict(d,100000):
    dc[k]+=1

print("Key count=",dc)

Результаты испытаний

Key count= {'a': 50181, 'c': 33363, 'b': 16456}
Key count= {'a': 50080, 'c': 33411, 'b': 16509}

Gattster · Answer 7 · 08 июля 2011

Я изменил некоторые другие ответы, чтобы придумать это. Это немного более настраиваемый. Для генерации ключа требуется 2 аргумента, список и лямбда-функция.

def select_weighted(lst, weight):
   """ Usage: select_weighted([0,1,10], weight=lambda x: x) """
   thesum = sum([weight(x) for x in lst])
   if thesum == 0:
      return random.choice(lst)
   offset = random.randint(0, thesum - 1)

   for k in lst:
      v = weight(k)
      if offset < v:
         return k
      offset -= v

Спасибо sth за базовый код для этого.

Случайный ключ словаря Python, взвешенный по значениям

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Случайный ключ словаря Python, взвешенный по значениям

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 8 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов