У меня есть продавец, предоставляющий мне несколько архивных файлов данных в корзине S3, которые мне нужно прочитать все вместе для анализа с использованием Pyspark. Как изменить команду s c .textFile ()?
Кроме того, если я загружаю 10 файлов, как я могу на них ссылаться? Или они все собираются в один RDD?
На более широком уровне, как бы я настроил разделы, память в кластере AMAZON EMR? Каждый заархивированный файл имеет размер 3 МБ или 1,3 ГБ в разархивированном виде. Спасибо