Как я могу использовать пользовательский Pyspark в Amazon Glue для чтения данных netCDF? - PullRequest
0 голосов
/ 05 февраля 2019

Я создаю конвейер данных для чтения данных NetCDF в S3 и планирую использовать Amazon Glue для ETL с пользовательским PySpark.

Существуют ли какие-либо специальные библиотеки pyspark, которые я могу использовать, которые поддерживают манипуляции netCDF с данными, хранящимися в S3.

Набор эталонных данных будет выглядеть так:

https://aws.amazon.com/blogs/publicsector/accessing-noaas-goes-r-series-satellite-weather-imagery-data-on-aws/?fbclid=IwAR3K_TS89Yolra5IKltINsI8NcPf8dk9FgF2X_iRBNVBIBQxqAZOXPi8jkY

1 Ответ

0 голосов
/ 06 февраля 2019

Нет встроенной поддержки чтения данных NetCDF на Glue , вам, возможно, придется использовать чистую реализацию spark .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...