перебор разделов в фрейме данных pyspark - PullRequest
0 голосов
/ 07 апреля 2020

У меня есть файл паркетной корзины s3, который разбит по дате, например: s3://path/folder/ где разделы в папке:

PRE date=2019-11-19/
PRE date=2019-11-20/
PRE date=2019-11-21/
PRE date=2019-11-22/
PRE date=2019-11-23/
PRE date=2019-11-26/

Каждый раздел имеет миллионы строк, и я хочу его проанализировать вызывая каждый раздел в a для l oop и добавляя результирующий кадр данных в другой файл паркета, также разделенный по дате. Ни одно из решений, которые я рассмотрел здесь, не касается моего конкретного c варианта использования, а те немногие, которые, кажется, используют что-то под названием boto, которое я не использую.

Любое понимание будет высоко оценено. Спасибо

...