Я использую приложение spark в режиме клиента и пытаюсь выполнить простой запрос выбора в spark- SQL. Опубликуйте, что я пытаюсь собрать () результат для драйвера (окончательный вывод в килобайтах и младших мегабайтах), и попытаться сгенерировать отчет на основе результатов. Я пытаюсь прочитать данные из таблицы улья, которая имеет разделение на поле даты.
Dataset<Row> dataset = sparkSession.sql(query);
dataset.collect();
Действие по сбору запускает 4-5 заданий последовательно, каждое из которых имеет различное количество задач. Начинается с 1 задачи, затем следующей задачи 1 * 4, затем задачи 4 * 5, затем задачи 20 * 5 и т. Д. Здесь отображается состояние выполнения заданий
Это продолжается до тех пор, пока не будет найдено соответствующее количество подзадач (в данном случае 306).
Эти повторяющиеся последовательные задания задерживают общая TAT запроса.
Вопрос: Как напрямую достичь конечного состояния 306 задач, а не go добавочного?
Или, возможно ли выполнить все эти задания параллельно, чтобы фактический запуск задания не задерживался?