Изображение док-станции PySpark для трансформации - PullRequest
0 голосов
/ 24 сентября 2019

У меня есть тонна вложенных Json-файлов, которые нужно сгладить с помощью PySpark.Я хочу настроить процесс преобразования в кластере Fargate, а не вращать EMR.В настоящее время я выполняю свой код в образе докера jupyter-pyspark локально. Возможно, это не то изображение, которое нужно обрабатывать в процессе производства.Функциональность будет заключаться в том, что код читает вложенные файлы Json из корзины S3 и сбрасывает сглаженные / преобразованные файлы CSV обратно в корзину s3.

Существует ли какой-либо файл образа / докера, который может поддерживать PySpark со всеми другими необходимыми установленными пакетами?

...