Я хочу знать, как работает фракция в коде. Я новичок. Пожалуйста, дайте мне четкое объяснение - PullRequest
0 голосов
/ 03 июля 2019

как здесь работают дроби

Я пытался изменить значения после ":". Все еще не смог понять, как это работает?

from pyspark.sql.functions import col

dataset = sqlContext.range(0, 100).select((col("id") % 3).alias("key"))
sampled = dataset.sampleBy("key", fractions={0: 0.1, 1: 0.2}, seed=0)
sampled.groupBy("key").count().orderBy("key").show()

Нет сообщений об ошибках

1 Ответ

0 голосов
/ 03 июля 2019

sampleBy и sample для внутреннего использования Bernoulli sample для отбора пробы.Все члены вашего набора данных имеют равные, но независимые шансы стать частью результата.Фракции представляют этот шанс.Вы часто будете получать странные результаты с небольшими наборами данных и, возможно, будете думать, что это бесполезная функция, но из-за слабого закона больших чисел * 1008 вероятности сходятся к ожидаемому значению для больших наборов данных.Spark создан для больших наборов данных.

...