Question

Имеется массив из n пар слов-частот:

[ (w<sub>0</sub>, f<sub>0</sub>), (w<sub>1</sub>, f<sub>1</sub>), ..., (w<sub>n-1</sub>, f<sub>n-1</sub>) ]

, где wi - слово, fi - целочисленная частота, а сумма частот ∑fi = m,

.

Я хочу использовать генератор псевдослучайных чисел (pRNG), чтобы выбрать p слов wj0, wj1, ..., wjp-1 так, чтобы вероятность выбора любого слова пропорциональна его частоте:

P(w<sub>i</sub> = w<sub>j<sub>k</sub></sub>) = P(i = j<sub>k</sub>) = f<sub>i</sub> / m

(Обратите внимание, что это выборка с заменой, поэтому одно и то же слово может быть выбрано каждый раз).

До сих пор я придумал три алгоритма:

Создайте массив размером m и заполните его так, чтобы первые f0 записи были w0, следующие f1 записи были w1 и т. Д., Так что последние fp-1 записи wp-1.
```
[ w0, ..., w0, w1,..., w1, ..., wp-1, ..., wp-1 ]
```
Затем используйте pRNG для выбора p индексов в диапазоне 0...m-1 и сообщите слова, хранящиеся в этих индексах.
Это займет O(n + m + p) работы, что не очень хорошо, так как m может быть намного больше, чем n.
Шаг один раз пройти по входному массиву, вычисляя
```
mi = &sum;h&le;ifh = mi-1 + fi
```
и после вычисления mi используйте pRNG для генерирования числа xk в диапазоне 0...mi-1 для каждого k в 0...p-1 и выберите wi для wjk (возможно, заменив текущее значение wjk), если xk < fi.
Это требует O(n + np) работы.
Вычислите mi, как в алгоритме 2, и сгенерируйте следующий массив для n троекратных слов частичной суммы:
```
[ (w0, f0, m0), (w1, f1, m1), ..., (wn-1, fn-1, mn-1) ]
```
а затем для каждого k в 0...p-1 используйте pRNG, чтобы сгенерировать число xk в диапазоне 0...m-1, затем выполните двоичный поиск по массиву троек, чтобы найти i s.t. mi-fi ≤ xk < mi и выберите wi для wjk.
Это требует O(n + p log n) работы.

Мой вопрос : Есть ли более эффективный алгоритм, который я могу использовать для этого, или он настолько хорош, насколько он есть?

seb · Answer 1 · 16 мая 2009

Это похоже на выбор колеса рулетки, в основном используемый для процесса выбора в генетических / эволюционных алгоритмах.

Посмотрите на Выбор рулетки в генетических алгоритмах

Guffa · Answer 2 · 16 мая 2009

Вы можете создать целевой массив, затем выполнить цикл по словам, определяющим вероятность его выбора, и заменить слова в массиве в соответствии со случайным числом.

Для первого слова вероятность будет f ₀ / m ₀ (где m _n = f ₀ + .. + f _n), т.е. 100%, поэтому все позиции в целевом массиве будут заполнены с помощью w ₀.

Для следующих слов вероятность падает, и когда вы достигнете последнего слова, целевой массив заполнится случайно выбранными словами, соответствующими частоте.

Пример кода на C #:

public class WordFrequency {

    public string Word { get; private set; }
    public int Frequency { get; private set; }

    public WordFrequency(string word, int frequency) {
        Word = word;
        Frequency = frequency;
    }

}

WordFrequency[] words = new WordFrequency[] {
    new WordFrequency("Hero", 80),
    new WordFrequency("Monkey", 4),
    new WordFrequency("Shoe", 13),
    new WordFrequency("Highway", 3),
};

int p = 7;
string[] result = new string[p];
int sum = 0;
Random rnd = new Random();
foreach (WordFrequency wf in words) {
    sum += wf.Frequency;
    for (int i = 0; i < p; i++) {
        if (rnd.Next(sum) < wf.Frequency) {
            result[i] = wf.Word;
        }
    }
}

rampion · Answer 3 · 17 мая 2009

Хорошо, я нашел другой алгоритм: метод псевдонима (также упоминается в этом ответе ). В основном это создает раздел вероятностного пространства такой, что:

Есть n разделов одинаковой ширины r s.t. nr = m.
каждый раздел содержит два слова в некотором соотношении (которое хранится вместе с разделом).
для каждого слова wi, fi = ∑partitions t s.t wi ∈ t r × ratio(t,wi)

Поскольку все разделы имеют одинаковый размер, можно выбрать, какой раздел можно выполнять в постоянной работе (случайным образом выбрать индекс из 0...n-1), и затем можно использовать соотношение разделов, чтобы выбрать, какое слово используется в константе. работа (сравните pRNGed число с соотношением между двумя словами). Таким образом, это означает, что p выбор может быть сделан в O(p) работе, при таком разделении.

Причина, по которой существует такое разбиение, состоит в том, что существует слово wi s.t. fi < r, если и только если существует слово wi' s.t. fi' > r, поскольку r является средним значением частот.

При наличии такой пары wi и wi' мы можем заменить их псевдословом w'i с частотой f'i = r (который представляет wi с вероятностью fi/r и wi' с вероятностью 1 - fi/r) и новое слово w'i' скорректированной частоты f'i' = fi' - (r - fi) соответственно. Средняя частота всех слов по-прежнему будет r, и правило из предыдущего абзаца будет по-прежнему применяться. Поскольку псевдослово имеет частоту r и состоит из двух слов с частотой & ne; r, мы знаем, что если мы повторим этот процесс, мы никогда не сделаем псевдослова из псевдослова, и такая итерация должна заканчиваться последовательностью из n псевдословов, которые являются желаемым разбиением.

Чтобы построить этот раздел в O(n) времени,

пройти список слов один раз, составив два списка:
- одно из слов с частотой & le; r
- одно из слов с частотой> r
затем вытащить слово из первого списка
- если его частота = r, то превратить его в одноэлементное разбиение
- в противном случае вытащите слово из другого списка и используйте его для заполнения раздела из двух слов. Затем поместите второе слово обратно в первый или второй список в соответствии с его настроенной частотой.

Это на самом деле все еще работает, если число разделов q > n (вам просто нужно доказать это по-другому). Если вы хотите убедиться, что r является целым, и вы не можете легко найти коэффициент q из m s.t. q > n, вы можете заполнить все частоты с коэффициентом n, поэтому f'i = nfi, который обновляет m' = mn и устанавливает r' = m при q = n.

В любом случае, этот алгоритм требует только O(n + p) работы, что я считаю оптимальным.

В рубине:

def weighted_sample_with_replacement(input, p)
  n = input.size
  m = input.inject(0) { |sum,(word,freq)| sum + freq }

  # find the words with frequency lesser and greater than average
  lessers, greaters = input.map do |word,freq| 
                        # pad the frequency so we can keep it integral
                        # when subdivided
                        [ word, freq*n ] 
                      end.partition do |word,adj_freq| 
                        adj_freq <= m 
                      end

  partitions = Array.new(n) do
    word, adj_freq = lessers.shift

    other_word = if adj_freq < m
                   # use part of another word's frequency to pad
                   # out the partition
                   other_word, other_adj_freq = greaters.shift
                   other_adj_freq -= (m - adj_freq)
                   (other_adj_freq <= m ? lessers : greaters) << [ other_word, other_adj_freq ]
                   other_word
                 end

    [ word, other_word , adj_freq ]
  end

  (0...p).map do 
    # pick a partition at random
    word, other_word, adj_freq = partitions[ rand(n) ]
    # select the first word in the partition with appropriate
    # probability
    if rand(m) < adj_freq
      word
    else
      other_word
    end
  end
end

Эффективный алгоритм случайного выбора предметов с частотой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Эффективный алгоритм случайного выбора предметов с частотой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы