Обработка данных очень большого объема (500 ТБ) с использованием искры - PullRequest
0 голосов
/ 28 августа 2018

У меня большой объем данных, около 500 ТБ, мне нужно сделать несколько ETL для этих данных.

Эти данные есть в AWS S3, поэтому я планирую использовать настройку AWS EMR для обработки этих данных, но я не уверен, какую конфигурацию следует выбрать.

  1. Какой кластер мне нужен (мастер и сколько рабов)?
  2. Нужно ли обрабатывать порции по порциям (10 ГБ) или я могу обрабатывать все данные одновременно?
  3. Какой должна быть память Master и Slave (executor), как Ram, так и хранилище?
  4. Какой процессор (скорость) мне нужен?

Исходя из этого, я хочу рассчитать стоимость AWS EMR и начать обработку данных

1 Ответ

0 голосов
/ 28 августа 2018

Исходя из вашего вопроса, у вас мало или нет опыта работы с Hadoop. Сначала проведите некоторое обучение, чтобы понять, как работает экосистема Hadoop. Планируйте потратить три месяца, чтобы добраться до начального уровня.

У вас есть много вариантов, некоторые из которых имеют решающее значение для успеха проекта. Например, на каком языке (Scala, Java или Python)? Какие инструменты (Spark, Hive, Pig и т. Д.). В каком формате находятся ваши данные (CSV, XML, JSON, Parquet и т. Д.). Вам нужна только пакетная обработка или вам требуется анализ в режиме реального времени и т. Д. И т. Д. И т. П.

Вы можете найти другие применимые сервисы AWS, такие как Athena или Redshift, в зависимости от того, в каком формате находятся ваши данные и какую информацию вы пытаетесь извлечь / обработать.

Если в AWS 500 ТБ, откройте заявку с поддержкой. Объясните, что у вас есть, что вы хотите и ваши сроки. SA будет доступен, чтобы направить вас по пути.

...