Question

В настоящее время я использую некоторые склеивающие задания для минимальных преобразований и отправляю информацию из таблиц S3 / Athena в Redshift, теперь мы не обрабатываем много данных, поэтому клей стоит дорого, медленно и его сложно настроить для этого объема данных , Я не мог найти, как запустить в EC2, чтобы сделать миграцию кода, учетные данные, зависимости.

Может быть, я могу вызвать лямбду, чтобы обработать его в моем экземпляре EC2? Могу ли я запустить спарк на 1 узле, а затем масштабировать до кластера в будущем? я должен перенести Glue Job на python (не pyspark)?

Я обнаружил, что EMR будет слишком дорогим для этого тома, идеальный вариант - начать с минимума. Не нужно полное решение, просто указав в нужном направлении направление, чтобы я мог попробовать это. Спасибо!

Narsireddy · Answer 1 · 30 января 2020

Вот несколько предложений для вашей потребности

Бессерверные фреймворки, такие как Glue и Lambda, более подходят, чем устойчивые EMR или EC2
AWS Lambda: Можно рассмотреть возможность использования лямбды с модулями python, если объем данных меньше, а преобразования минимальны.
AWS Клей с Python не искрится - это также экономически эффективное решение.
AWS Ec2 - переход на унаследованный подход EC2 и дорогостоящий.

Миграция AWS Клей Job на EC2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Миграция AWS Клей Job на EC2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы