У меня большой набор данных на S3, сохраненный в виде файлов паркета, разделенный столбцом «last_update».
Я хочу взять первые 10 миллионов записей, упорядочить по last_update ASC.
Я пытался сохранить прикрепленный фрейм данных на S3, но он никогда не заканчивается.
Любой другой зачем это делать?
Странная вещь в том, что я могу убить его через 40 минут, когда ничего не произошло, запустить его снова (с тем же набором данных!), А затем он заканчивается через 4 минуты ...
(все верхние 10 м могут быть в самом старом разделе или разбиты на несколько самых старых разделов)
Спасибо!
sql_context.sql(
"""
SELECT
trim(col1) as col1,
col2,
col3
FROM
global_temp.my_tbl
ORDER BY last_update asc
LIMIT {}
""".format(args.num_of_records)
)