У меня есть набор данных около 400 МБ в CSV. В моем локальном компьютере я пробовал несколько форматов данных, чтобы добиться самого быстрого времени чтения. Формат паркета, разделенный по дате, оказался наилучшим. Но когда я перешел на S3 bucket, потребовалось так много времени, чтобы прочитать тот же файл, используя aws data wrangler.
Будучи новичком в AWS world, мне нужно знать, каким должен быть лучший метод для достижения самого быстрого Продолжительность. Дано:
У меня есть дата как одна из функций, и я могу использовать ее для разбиения. Также мне нужно как pandas dataframe после прочтения.