Что означает для вас сериализация ?
Поскольку вам нужно делать только то, что вы показали, выбирая любой доступный формат , который вам нравится, например, csv
, json
, parquet
, orc
, ...
(я бы рекомендовал провести бенчмаркинг между ORC и паркетом для ваших данных, чтобы увидеть, какой из них работает лучше для вас).
myData.write.orc("s3://someBucket/somePath")
И, при чтении, просто используйте тот же формат, чтобы получить обратно DataFrame
, который вы можете привести кa Dataset[MyData]
с использованием метода as[T]
.
val myloadedData: Dataset[MyData] = spark.read.orc("s3://someBucket/somePath").as[MyData]
Или у вас возник вопрос, как подключиться к S3 ?- Если это так, если вы работаете с EMR , то все будет уже настроено.Вам нужно только предварять ваш путь с помощью s3://
, как вы уже сделали.