Spark - Оптимизация паркета для нескольких соединений - PullRequest
0 голосов
/ 10 сентября 2018

У меня есть DataFrame, у которого есть столбец id, который используется для соединения с другими DataFrames. Этот DataFrame будет использоваться несколько раз для объединения в одном и том же столбце, поэтому моя интуиция подсказывает мне, что я должен отсортировать его один раз, сохранить в паркете и прочитать обратно, отсортировав его так, чтобы ему не пришлось сортировать до слияния сортировки. присоединиться. Поскольку это уникальный идентификатор, писать разделы не имеет смысла, поскольку каждый раздел представляет собой один файл одной записи.

Есть ли способ записать DataFrame на паркет, чтобы он мог использовать тот факт, что я отсортировал его один раз? Это включает в себя разделение или просто сортировку?

...