Пример k элементов из коллекции в Scalding - PullRequest
0 голосов
/ 31 октября 2019

Существует ли способ выборки k элементов из коллекции в режиме ошпаривания, чтобы каждый элемент имел одинаковую вероятность быть выбранным?

Вот несколько вариантов, которые я исследовал, которые не работают:

  1. Существует функция sample(), но она использует вероятность выбора элемента вместо количества элементов для выбора.
  2. Использование limit() после вызова sample() с помощьювысокая вероятностьЭто имеет смещение позиции, элементы, встречающиеся ранее, имеют более высокую вероятность быть пойманным.
...