Когда у меня есть оператор limit в моем фрейме данных spark, он все равно заканчивает тем, что читает всю таблицу / раздел, прежде чем он ограничивается количеством строк в ограничении.
spark.table ("table_name "). limit (1) .show ()
В результате запускается 30 задач (по одной для каждого файла в таблице), когда в моем mmind'е он мог просто прочитать первый файл и вернуть.
Есть ли в любом случае, что я могу избежать этого, включив некоторые параметры оптимизации, такие как то, что можно увидеть в улье (set hive.fetch.task.conversion = more)?