Spark фиксированный результат выборки - PullRequest
0 голосов
/ 21 февраля 2019

У меня проблема с выборкой данных в спарк.Попытка выборки моих данных с постоянным процентом (1%)

При выполнении одного и того же запроса к тем же данным я получаю разные результаты.Я попытался сэмплировать данные, используя: 1. spark sql - распределение по и randInt (613) 2. dataframe.sample с дробью и начальным числом (613).3. преобразовать dataframe в rdd и выполнить ту же команду из (2)

. Во всех случаях я получил разные результаты при работе в кластере с более чем одним узлом.Когда я запускаю это на драйвере или в кластере, содержащем 1 узел, я получаю одинаковые результаты каждый раз.

Любая помощь будет благословлена!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...