Question

Когда у меня есть оператор limit в моем фрейме данных spark, он все равно заканчивает тем, что читает всю таблицу / раздел, прежде чем он ограничивается количеством строк в ограничении.

spark.table ("table_name "). limit (1) .show ()

В результате запускается 30 задач (по одной для каждого файла в таблице), когда в моем mmind'е он мог просто прочитать первый файл и вернуть.

Есть ли в любом случае, что я могу избежать этого, включив некоторые параметры оптимизации, такие как то, что можно увидеть в улье (set hive.fetch.task.conversion = more)?

swapnil shashank · Answer 1 · 07 февраля 2019

Не могли бы вы попробовать это и сообщить мне ваши выводы:

spark.table("table_name").take(1).foreach(println)

Функция предела на кадре данных искры

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Функция предела на кадре данных искры

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов