Нам нужно обработать большой CSV-файл, хранящийся на S3, сгенерированный ежедневно.Мы хотим разбить данные на небольшие файлы в зависимости от категории, указанной в каждой строке.Поэтому мы читаем построчно и обрабатываем его с помощью потоковой передачи, чтобы избежать проблемы с памятью.Я могу разбить файл на несколько файлов на основе количества строк, но я не могу разбить его на основе категории, потому что строки не последовательные.
Может кто-то указать мне правильное направление, как написатьданные в несколько файлов на основе категории при разборе большого файла?