Миграция AWS Клей Job на EC2 - PullRequest
0 голосов
/ 30 января 2020

В настоящее время я использую некоторые склеивающие задания для минимальных преобразований и отправляю информацию из таблиц S3 / Athena в Redshift, теперь мы не обрабатываем много данных, поэтому клей стоит дорого, медленно и его сложно настроить для этого объема данных , Я не мог найти, как запустить в EC2, чтобы сделать миграцию кода, учетные данные, зависимости.

Может быть, я могу вызвать лямбду, чтобы обработать его в моем экземпляре EC2? Могу ли я запустить спарк на 1 узле, а затем масштабировать до кластера в будущем? я должен перенести Glue Job на python (не pyspark)?

Я обнаружил, что EMR будет слишком дорогим для этого тома, идеальный вариант - начать с минимума. Не нужно полное решение, просто указав в нужном направлении направление, чтобы я мог попробовать это. Спасибо!

1 Ответ

0 голосов
/ 30 января 2020

Вот несколько предложений для вашей потребности

  1. Бессерверные фреймворки, такие как Glue и Lambda, более подходят, чем устойчивые EMR или EC2
  2. AWS Lambda: Можно рассмотреть возможность использования лямбды с модулями python, если объем данных меньше, а преобразования минимальны.
  3. AWS Клей с Python не искрится - это также экономически эффективное решение.
  4. AWS Ec2 - переход на унаследованный подход EC2 и дорогостоящий.
...