У меня есть огромные CSV-файлы в сжатом формате в хранилище S3. Мне нужно только подмножество столбцов из данных для целей машинного обучения. Как извлечь эти столбцы в EMR, а затем в Redshift, не передавая целые файлы?
Моя идея состоит в том, чтобы обработать все файлы в EMR, затем извлечь подмножество и вставить необходимые столбцы в Redshift. Но это занимает много времени. Пожалуйста, дайте мне знать, если есть оптимизированный способ обработки этих данных.
Редактировать: я пытаюсь автоматизировать этот конвейер, используя Кафку. Допустим, добавлена новая папка в S3, она должна обрабатываться в EMR с использованием spark и сохраняться в красном смещении без какого-либо ручного вмешательства.
Редактировать 2: Спасибо за вводные ребята, я смог создать конвейер от S3 до Redshift, используя Pyspark в EMR. В настоящее время я пытаюсь интегрировать Kafka в этот конвейер.