PySpark Выбрать топ-записи, используя разделы - PullRequest
1 голос
/ 25 марта 2019

У меня большой набор данных на S3, сохраненный в виде файлов паркета, разделенный столбцом «last_update».

Я хочу взять первые 10 миллионов записей, упорядочить по last_update ASC.

Я пытался сохранить прикрепленный фрейм данных на S3, но он никогда не заканчивается. Любой другой зачем это делать?

Странная вещь в том, что я могу убить его через 40 минут, когда ничего не произошло, запустить его снова (с тем же набором данных!), А затем он заканчивается через 4 минуты ...

(все верхние 10 м могут быть в самом старом разделе или разбиты на несколько самых старых разделов)

Спасибо!

sql_context.sql(
            """
            SELECT 
                trim(col1) as col1, 
                col2,
                col3
            FROM 
                global_temp.my_tbl
            ORDER BY last_update asc
            LIMIT {}
           """.format(args.num_of_records)
)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...