Настройка: последняя (5,29) AWS EMR, искра, 1 главный узел 1.
шаг 1. Я использовал S3Select для анализа файла и сбора всех файловых ключей для извлечения из S3. Шаг 2. Используйте pyspark, выполните итерацию ключей в al oop и выполните следующее
spark .read .format ("s3selectCSV") .load (ключ) .limit (супервысокое значение) .show (супервысокое значение)
Это заняло x количество минут.
Когда я увеличиваю кластер до 1 главного и 6 узлов, я не вижу разницы во времени. Мне кажется, что я не использую увеличенные базовые узлы.
Все остальное, конфигурация по умолчанию, по умолчанию, я ничего не устанавливаю.
Итак, мой вопрос: имеет ли значение размер кластера? читать и проверять (например, записывать или распечатывать) данные с S3 с помощью EMR, Spark?