Самый быстрый вариант для чтения данных для pandas из корзины S3? - PullRequest
0 голосов
/ 18 февраля 2020

У меня есть набор данных около 400 МБ в CSV. В моем локальном компьютере я пробовал несколько форматов данных, чтобы добиться самого быстрого времени чтения. Формат паркета, разделенный по дате, оказался наилучшим. Но когда я перешел на S3 bucket, потребовалось так много времени, чтобы прочитать тот же файл, используя aws data wrangler.

Будучи новичком в AWS world, мне нужно знать, каким должен быть лучший метод для достижения самого быстрого Продолжительность. Дано:

У меня есть дата как одна из функций, и я могу использовать ее для разбиения. Также мне нужно как pandas dataframe после прочтения.

1 Ответ

1 голос
/ 18 февраля 2020

Существует формат, называемый пером, он может вам помочь.

Подробнее здесь - ссылка

enter image description here

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...