Каков принцип метода Spark с заменой? - PullRequest
0 голосов
/ 22 ноября 2018

Я изучаю Spark, и у меня есть вопрос о методе sample (). Как вы, возможно, знаете, sample () принимает три параметра

sample( withReplacement : boolean, Fraction : Double, seed : Long )

Я не могупонимать второе значение fraction, когда withReplacement установлено в True.

В документе это означает ожидаемое значение извлечения замены каждого элемента.

Если я введу 2 в дробной части, а в СДР 10 элементов, как он будет пробовать внутри?Какой принцип?(Я знаю, что это не гарантирует количество выборки 20)

Пожалуйста, помогите мне понять.

1 Ответ

0 голосов
/ 22 ноября 2018

Для получения выборки с заменой Spark использует PoissonSampler.Он генерирует числа из распределения Пуассона , чтобы определить, сколько элементов сэмплер должен пропустить, прежде чем получить новое значение.

Чем выше доля, тем ниже лямбда-параметр распределения Пуассона или другиесловами, чем выше вероятность того, что шаг будет равен 0, и мы снова возьмем тот же предмет.

Poisson distribution depending on lambda

Изображение из Википедия Skbkekas .

Пожалуйста, обратитесь к исходному коду сэмплера , чтобы увидеть точную процедуру.

...