Я создаю конвейер данных для чтения данных NetCDF в S3 и планирую использовать Amazon Glue для ETL с пользовательским PySpark.
Существуют ли какие-либо специальные библиотеки pyspark, которые я могу использовать, которые поддерживают манипуляции netCDF с данными, хранящимися в S3.
Набор эталонных данных будет выглядеть так:
https://aws.amazon.com/blogs/publicsector/accessing-noaas-goes-r-series-satellite-weather-imagery-data-on-aws/?fbclid=IwAR3K_TS89Yolra5IKltINsI8NcPf8dk9FgF2X_iRBNVBIBQxqAZOXPi8jkY
Нет встроенной поддержки чтения данных NetCDF на Glue , вам, возможно, придется использовать чистую реализацию spark .