Как сохранить Dataframe на разных этапах или этапах рабочего процесса Glue - PullRequest
0 голосов
/ 09 июля 2019

Мне нужно настроить процесс ETL в Glue с помощью Glue Jobs / Glue Workflows.Этот процесс должен быть настраиваемым, то есть удалять пустые значения, проверять дубликаты записей и т. Д., Но я не могу понять, как передать DataFrame через различные этапы рабочего процесса Glue, не записывая его во временную корзину и собирая его на следующем этапе.Есть ли другой способ смягчить эту проблему?

Я попытался зафиксировать файл во временную папку и забрать его на следующем шаге, но это удаляет любой параллелизм, который я мог бы использовать между различными шагами, а также использоватьненужные чтение / запись.

...