Question

Настройка: последняя (5,29) AWS EMR, искра, 1 главный узел 1.

шаг 1. Я использовал S3Select для анализа файла и сбора всех файловых ключей для извлечения из S3. Шаг 2. Используйте pyspark, выполните итерацию ключей в al oop и выполните следующее

spark .read .format ("s3selectCSV") .load (ключ) .limit (супервысокое значение) .show (супервысокое значение)

Это заняло x количество минут.

Когда я увеличиваю кластер до 1 главного и 6 узлов, я не вижу разницы во времени. Мне кажется, что я не использую увеличенные базовые узлы.
Все остальное, конфигурация по умолчанию, по умолчанию, я ничего не устанавливаю.

Итак, мой вопрос: имеет ли значение размер кластера? читать и проверять (например, записывать или распечатывать) данные с S3 с помощью EMR, Spark?

Jason B · Answer 1 · 08 февраля 2020

Да, размер имеет значение. Для моего случая использования sc.parallelize(s3fileKeysList), распараллеливание оказалось ключом.

ravi · Answer 2 · 04 февраля 2020

Немного о чем стоит помнить.

Вы уверены, что исполнители действительно увеличились из-за увеличения узлов? или вы можете указать их во время искровой отправки --num-executors 6. Более узлы не имеют в виду ни один исполнитель вращается.
Следующая вещь, какой размер файла CSV? около 1 МБ? тогда вы не увидите большой разницы. Убедитесь, что по крайней мере 3-4 ГБ

имеет значение размер кластера EMR для чтения данных из S3 с использованием искры

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

имеет значение размер кластера EMR для чтения данных из S3 с использованием искры

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы