Я пытаюсь загрузить некоторые CSV-файлы из корзины S3 для запуска фрейма данных с помощью EMR. Проблема из-за огромных данных. Я не могу обработать их все вместе (всю папку).
Я думаю обработать файлы в пакетном режиме, такие как первые 100 или (которые когда-либо появлялись на первой странице в S3-корзине).
Я искал несколько load
вариантов. Мои файлы не имеют шаблонов именования, которые я могу обработать.
Я исследую опцию, если есть какой-нибудь способ, которым я могу обработать первые 100 и т. Д.
Опция, которую я видел, передает файлы в список при загрузке. Но в этом случае мой сценарий EMR будет слишком большим. Пожалуйста, предложите мне лучший способ сделать это.