У меня проблема с выборкой данных в спарк.Попытка выборки моих данных с постоянным процентом (1%)
При выполнении одного и того же запроса к тем же данным я получаю разные результаты.Я попытался сэмплировать данные, используя: 1. spark sql - распределение по и randInt (613) 2. dataframe.sample с дробью и начальным числом (613).3. преобразовать dataframe в rdd и выполнить ту же команду из (2)
. Во всех случаях я получил разные результаты при работе в кластере с более чем одним узлом.Когда я запускаю это на драйвере или в кластере, содержащем 1 узел, я получаю одинаковые результаты каждый раз.
Любая помощь будет благословлена!