Я хочу заархивировать свои журналы в формате Parquet. Прежде чем писать таблицу, я хочу отсортировать ее по столбцу c
, чтобы у каждого файла Parquet был только небольшой диапазон c
. Это позволит Athena / Presto эффективно сканировать таблицу, когда запрос включает предложение WHERE в столбце c
(с помощью предиката pushdown).
Однако мне неясно, могу ли я использовать Афину или Престо для сортировки всей таблицы. Мне нужна распределенная сортировка - не та, которая выполняется на одном узле - потому что набор данных слишком велик, чтобы поместиться на одном узле. Возможен ли такой вид? Если да, то как мне его вызвать?