Question

Я пытаюсь читать и писать из блоков s3 с помощью pyspark с помощью этих двух библиотек из maven https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7 и https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4, которые действительно старые.Я пробовал с различными комбинациями hadoop-aws и aws-java-SDK, но он не работает с pyspark версии 2.4.4.кто-нибудь знает, какие версии Hadoop и java SDK совместимы с искровой версией 2.4.4?

devnull · Answer 1 · 24 сентября 2019

Я использую следующее:

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

Работает для меня и использовать s3a://bucket-name/

( Примечание : Для PySPark я использовал aws-java-sdk-1.7.4.jar), потому чтоЯ не смог использовать

df.write.csv(path=path, mode="overwrite", compression="None")

совместимые с pyspark hadoop aws и aws adk для версии 2.4.4

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

совместимые с pyspark hadoop aws и aws adk для версии 2.4.4

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов