Искра: считывается S3 aws -sdk или как RDD - PullRequest
0 голосов
/ 04 мая 2020

У меня мало (5-10), под 5KB конфигурационных файлов в S3. Эти файлы могут быть прочитаны с помощью AWS S3 или с помощью RDD. Таким образом, если имеется 10 файлов, создается 10 объектов RDD, и используется collect() для превращения этого в список.

Поскольку RDD распространяется, целесообразно читать с использованием aws -s3 Java SDK вместо RDD?

1 Ответ

0 голосов
/ 04 мая 2020

Вы всегда должны отдавать файлы конфигурации драйверу spark, а затем читать их, используя python саму команду open или java, если вы используете aws клей.

Если вы используете EMR или тогда вы можете использовать boto3 для чтения файла и передать его драйверу или обработать его соответствующим образом.

...