В настоящее время я использую некоторые склеивающие задания для минимальных преобразований и отправляю информацию из таблиц S3 / Athena в Redshift, теперь мы не обрабатываем много данных, поэтому клей стоит дорого, медленно и его сложно настроить для этого объема данных , Я не мог найти, как запустить в EC2, чтобы сделать миграцию кода, учетные данные, зависимости.
Может быть, я могу вызвать лямбду, чтобы обработать его в моем экземпляре EC2? Могу ли я запустить спарк на 1 узле, а затем масштабировать до кластера в будущем? я должен перенести Glue Job на python (не pyspark)?
Я обнаружил, что EMR будет слишком дорогим для этого тома, идеальный вариант - начать с минимума. Не нужно полное решение, просто указав в нужном направлении направление, чтобы я мог попробовать это. Спасибо!