имеет значение размер кластера EMR для чтения данных из S3 с использованием искры - PullRequest
0 голосов
/ 04 февраля 2020

Настройка: последняя (5,29) AWS EMR, искра, 1 главный узел 1.

шаг 1. Я использовал S3Select для анализа файла и сбора всех файловых ключей для извлечения из S3. Шаг 2. Используйте pyspark, выполните итерацию ключей в al oop и выполните следующее

spark .read .format ("s3selectCSV") .load (ключ) .limit (супервысокое значение) .show (супервысокое значение)

Это заняло x количество минут.

Когда я увеличиваю кластер до 1 главного и 6 узлов, я не вижу разницы во времени. Мне кажется, что я не использую увеличенные базовые узлы.
Все остальное, конфигурация по умолчанию, по умолчанию, я ничего не устанавливаю.

Итак, мой вопрос: имеет ли значение размер кластера? читать и проверять (например, записывать или распечатывать) данные с S3 с помощью EMR, Spark?

Ответы [ 2 ]

0 голосов
/ 08 февраля 2020

Да, размер имеет значение. Для моего случая использования sc.parallelize(s3fileKeysList), распараллеливание оказалось ключом.

0 голосов
/ 04 февраля 2020

Немного о чем стоит помнить.

  1. Вы уверены, что исполнители действительно увеличились из-за увеличения узлов? или вы можете указать их во время искровой отправки --num-executors 6. Более узлы не имеют в виду ни один исполнитель вращается.
  2. Следующая вещь, какой размер файла CSV? около 1 МБ? тогда вы не увидите большой разницы. Убедитесь, что по крайней мере 3-4 ГБ
...