ETL-процесс в AWS с использованием EC2-ов и EFS - PullRequest
0 голосов
/ 01 декабря 2018

Я инженер по обработке данных с опытом проектирования, создания и интеграции данных и процессов ELT.Ниже приведен мой вариант использования, и мне нужно перенести процесс на aws, и хотелось бы узнать ваше мнение?Мои файлы для обработки находятся в s3.Мне нужно обработать эти файлы с помощью Hadoop.У меня есть существующая логика, написанная в улье, просто нужно перенести то же самое в aws.Является ли приведенный ниже подход правильным / выполнимым?

  1. Раскрутите парк экземпляров ec2, сначала скажем 5, включите автоматическое масштабирование.
  2. Создайте EFS и установите его на экземплярах ec2.
  3. Копирование файла из s3 в EFS в виде таблиц Hadoop.
  4. Запуск запросов куста поверх данных в EFS и создание новых таблиц.
  5. После завершения процесса переместите/ экспортировать таблицу окончательных отчетов из EFS в s3 (каким-то образом).Не уверен, что, возможно ли это или нет, если это невозможно, то все это решение неосуществимо.6.Закрепить экземпляры EFS и EC2.

Если описанный выше метод верен, как происходит оркестровка Hadoop с использованием EFS?

Спасибо, KR

1 Ответ

0 голосов
/ 02 декабря 2018

Раскрутите парк экземпляров ec2, скажем, 5, включите автоматическое масштабирование.

Я не уверен, что вам нужно автоматическое масштабирование.Зачем?скажем, вы запускаете «большой» запрос, который занимает много времени, и процессор.

автоматическое масштабирование запустит больше экземпляров, но как он запустит «дробную часть» запроса на новом компьютере?

все машины должны быть готовы перед выполнением запроса.просто имейте это в виду.Или другими словами: только машины, которые доступны сейчас будут обрабатывать запрос.

Копировать файл из s3 в EFS как таблицы Hadoop.

Там нет никаких проблем с этой идеей.просто имейте в виду, что вы можете хранить данные в EFS.

, если EFS слишком дорогая для вас, пожалуйста, проверьте опции для обеспечения EBS-magnet с Raid 0.Вы получите высокую скорость при минимальных затратах.

В остальном все в порядке, и это один из способов сделать интерактивную аналитику "по требованию".

Пожалуйста, ознакомьтесь с AWS Athena .

Это сервис, позволяющий выполнять запросы к объектам s3.

Вы можете использовать Json и даже Parquet (что гораздо эффективнее!)

Эта услуга может быть достаточно для вашей необходимости.

Удачи!

...