Question

У меня проблема с выборкой данных в спарк.Попытка выборки моих данных с постоянным процентом (1%)

При выполнении одного и того же запроса к тем же данным я получаю разные результаты.Я попытался сэмплировать данные, используя: 1. spark sql - распределение по и randInt (613) 2. dataframe.sample с дробью и начальным числом (613).3. преобразовать dataframe в rdd и выполнить ту же команду из (2)

. Во всех случаях я получил разные результаты при работе в кластере с более чем одним узлом.Когда я запускаю это на драйвере или в кластере, содержащем 1 узел, я получаю одинаковые результаты каждый раз.

Любая помощь будет благословлена!

Spark фиксированный результат выборки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Spark фиксированный результат выборки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов