Один и тот же код возвращает разные результаты из разных прогонов - PullRequest
0 голосов
/ 05 февраля 2019

Я мой код, есть таблица данных, которую я создал из таблицы улья.И я делаю простой фильтр с фильтром функций.Но результат случайный: я выполняю одну и ту же ячейку, содержащую фильтр, несколько раз, иногда она возвращает строку, иногда не возвращает.Я уверен, что в ожидаемом результате есть только одна строка.И никакие другие не работают одновременно с исходным файлом.

df = spark.sql("select id from hive_table limit 100")

df.filter(col('id') == 27654909)

1 Ответ

0 голосов
/ 05 февраля 2019

Я не эксперт в pyspark, , чтобы быть уверенным , но ваши симптомы звучат как limit фактически контролирует глубину поиска и not максимальное количество возвращаемых результатов записи.

Поскольку я полагаю, что это в среде разработчика, если вы удалите предложение limit, вы добьетесь успеха в 100% случаев?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...