Объединить DataFrames в Pyspark - PullRequest
       19

Объединить DataFrames в Pyspark

0 голосов
/ 18 февраля 2020

У меня есть продавец, предоставляющий мне несколько архивных файлов данных в корзине S3, которые мне нужно прочитать все вместе для анализа с использованием Pyspark. Как изменить команду s c .textFile ()?

Кроме того, если я загружаю 10 файлов, как я могу на них ссылаться? Или они все собираются в один RDD?

На более широком уровне, как бы я настроил разделы, память в кластере AMAZON EMR? Каждый заархивированный файл имеет размер 3 МБ или 1,3 ГБ в разархивированном виде. Спасибо

1 Ответ

1 голос
/ 18 февраля 2020

У вас может быть сценарий, который будет перемещать все разархивированные файлы в каталог, а затем в качестве части кода yur spark вы можете ссылаться на этот каталог

rdd = sc.textFile(("s3://path/to/data/")

Когда вы упомянули, это 1,3 ГБ данных, которые не слишком большой для обработки искры, вы можете оставить для искры наличие необходимых разделов, однако вы можете определить их при создании rdd.

Для Amazon EMR вы можете вращать меньшие узлы в зависимости от типа reuirement https://docs.aws.amazon.com/emr/latest/ManagementGuide/emr-supported-instance-types.html

В зависимости от типа обработки (интенсивная память / интенсивная обработка) выберите тип машины.

HTH

...