У меня есть две большие таблицы, разбитые по столбцу даты.Они сохраняются в виде паркетных файлов в формате hdf.Каждый раздел разделен на блоки по 64 МБ и реплицирован 3 раза на компьютерах кластера.Чтобы оптимизировать операцию объединения, я хочу разместить одинаковые разделы даты на одних и тех же компьютерах (любое значение ключа объединения помещается только в один раздел дат).
В Spark есть объект Partitioner, который может помочь распределить блоки разных RDD по кластеру.Это довольно похоже на мой вопрос, но я боюсь, что после сохранения файловые блоки этих RDD могут быть перетасованы механизмом hdfs.Объяснено: RDD - это экземпляр Spark, а метод df saveAsTable (...) вызывает (я полагаю) некоторые низкоуровневые функции, которые выбирают узлы данных и реплицируют данные.
Может кто-нибудь помочь мне узнать, есть ли блокимои таблицы распределены правильно?