Я новичок в PySpark и AWS EMR. Мне дали небольшой проект, в котором мне нужно каждый час очищать большие объемы файлов данных и создавать на их основе агрегированные наборы данных. Эти файлы данных хранятся на S3, и я могу использовать некоторые основные функции c в Spark (например, фильтр и отображение) для получения агрегированных данных. Чтобы сэкономить на исходящих затратах и после некоторого анализа CBA, я решил создать EMR-кластер и делать вызовы pypark. Концепция работает нормально, используя лямбда-функции, запускаемые файлом, созданным в корзине S3. Я записываю выходные файлы обратно на S3.
- Но я не в состоянии понять необходимость создания кластера EMR из трех узлов, который я создал, и его использование для меня. Как я могу использовать файловую систему Had oop для своего преимущества здесь и всего хранилища, доступного на узлах?
- Как мне просмотреть (если это возможно) использование подчиненных / основных узлов в кластер? Откуда я знаю, что они используются, как часто и так далее c и c? Я выполняю код pyspark на главном узле.
- Существуют ли альтернативы EMR, которые я могу использовать с pyspark?
Есть ли хорошая документация для лучшего понимания.
Спасибо