Лучший способ загрузить первые несколько файлов S3 Bucket в искровой датафрейм - PullRequest
0 голосов
/ 04 ноября 2019

Я пытаюсь загрузить некоторые CSV-файлы из корзины S3 для запуска фрейма данных с помощью EMR. Проблема из-за огромных данных. Я не могу обработать их все вместе (всю папку).

Я думаю обработать файлы в пакетном режиме, такие как первые 100 или (которые когда-либо появлялись на первой странице в S3-корзине).

Я искал несколько load вариантов. Мои файлы не имеют шаблонов именования, которые я могу обработать.

Я исследую опцию, если есть какой-нибудь способ, которым я могу обработать первые 100 и т. Д.

Опция, которую я видел, передает файлы в список при загрузке. Но в этом случае мой сценарий EMR будет слишком большим. Пожалуйста, предложите мне лучший способ сделать это.

...