Оптимизация операций чтения в таблице данных Delta Table - PullRequest
0 голосов
/ 31 марта 2020

У меня есть вопрос относительно Spark Writes и Spark Reads в дельта-таблицах для оптимизации этих задач.

Здесь на фотографии ниже я читаю таблицы не более того, и, как вы можете видеть, каждая задача в каждой работе кажется не разделенной, как это должно быть, я не понимаю, почему есть 3 этапа и почему эти этапы содержат неверное количество задач по сравнению с моим количеством слотов в кластере (некоторые задачи имеют 50, а в моем кластере 16 слотов)

enter image description here

enter image description here

Мой вопрос:

Должен ли я установить число разделов в каждом кластере как константу, определенную в скрипте инициализации ??

Есть ли способ записать таблицы в 16 разделов, чтобы я мог прочитать их в 16 разделах?

таблицы являются дельта-таблицами, и я разбиваю данные на столбец даты, но я не думаю, что столбчатый раздел равен количеству разделов в исполнителях ... я прав?

Какими должны быть минимальные задачи для настройки в кластере, чтобы иметь оптимизированную запись / чтение?

спасибо:)

...