Несколько одинаковых заданий создаются для одной и той же искры - PullRequest
0 голосов
/ 26 апреля 2020

Я использую приложение spark в режиме клиента и пытаюсь выполнить простой запрос выбора в spark- SQL. Опубликуйте, что я пытаюсь собрать () результат для драйвера (окончательный вывод в килобайтах и ​​младших мегабайтах), и попытаться сгенерировать отчет на основе результатов. Я пытаюсь прочитать данные из таблицы улья, которая имеет разделение на поле даты.

Dataset<Row> dataset = sparkSession.sql(query);
dataset.collect();

Действие по сбору запускает 4-5 заданий последовательно, каждое из которых имеет различное количество задач. Начинается с 1 задачи, затем следующей задачи 1 * 4, затем задачи 4 * 5, затем задачи 20 * 5 и т. Д. Здесь отображается состояние выполнения заданий

Это продолжается до тех пор, пока не будет найдено соответствующее количество подзадач (в данном случае 306).

Эти повторяющиеся последовательные задания задерживают общая TAT запроса.

Вопрос: Как напрямую достичь конечного состояния 306 задач, а не go добавочного?

Или, возможно ли выполнить все эти задания параллельно, чтобы фактический запуск задания не задерживался?

...