Question

У меня есть набор данных около 400 МБ в CSV. В моем локальном компьютере я пробовал несколько форматов данных, чтобы добиться самого быстрого времени чтения. Формат паркета, разделенный по дате, оказался наилучшим. Но когда я перешел на S3 bucket, потребовалось так много времени, чтобы прочитать тот же файл, используя aws data wrangler.

Будучи новичком в AWS world, мне нужно знать, каким должен быть лучший метод для достижения самого быстрого Продолжительность. Дано:

У меня есть дата как одна из функций, и я могу использовать ее для разбиения. Также мне нужно как pandas dataframe после прочтения.

vijay athithya · Answer 1 · 18 февраля 2020

Существует формат, называемый пером, он может вам помочь.

Подробнее здесь - ссылка

Самый быстрый вариант для чтения данных для pandas из корзины S3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Самый быстрый вариант для чтения данных для pandas из корзины S3?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов