Функция предела на кадре данных искры - PullRequest
0 голосов
/ 07 февраля 2019

Когда у меня есть оператор limit в моем фрейме данных spark, он все равно заканчивает тем, что читает всю таблицу / раздел, прежде чем он ограничивается количеством строк в ограничении.

spark.table ("table_name "). limit (1) .show ()

В результате запускается 30 задач (по одной для каждого файла в таблице), когда в моем mmind'е он мог просто прочитать первый файл и вернуть.

Есть ли в любом случае, что я могу избежать этого, включив некоторые параметры оптимизации, такие как то, что можно увидеть в улье (set hive.fetch.task.conversion = more)?

1 Ответ

0 голосов
/ 07 февраля 2019

Не могли бы вы попробовать это и сообщить мне ваши выводы:

spark.table("table_name").take(1).foreach(println)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...