Невозможно прочитать S3 bucket после обновления до 2.4.4 и EMR 5.29 - PullRequest
0 голосов
/ 18 февраля 2020

Недавно пытался загрузить файлы Parquet в моей локальной среде Spark. Недавно обновил мой кластер EMR до последней версии (ранее использовавшей Spark 2.3.0) до Spark 2.4.4 в своей последней версии EMR 5.29.

Однако, когда я изменяю управление версиями в моем проекте, чтобы прочитать корзину, используя s3a следующие подсказки при отладке.

org.apache.hadoop.fs.s3a.AWSClientIOException: getFileStatus on mybucket com.amazonaws.SdkClientException: Failed to connect to service endpoint: : Failed to connect to service endpoint:

Используются следующие зависимости.

    val spark          = "2.4.4"
    val awsSdk         = "1.11.682"

Другая проблема заключается в том, что при использовании старой версии (Spark 2.3.0), я не смог прочитать новые сгенерированные данные, так как что-то в сериализации было обновлено (не удалось разобрать Scala Array или List, что бы новый класс Spark внутренне не использовал).

...