AWS клеевой запуск работы - PullRequest
0 голосов
/ 11 мая 2018

Я изменил сгенерированный Glue скрипт, который я использую для преобразования и манипулирования данными.Я хочу запускать одно и то же задание по триггеру для каждой новой таблицы, которая появляется в каталоге, но без изменения имени таблицы в скрипте задания.Короче говоря, как я могу выполнить одно и то же преобразование, которое скрипт предоставляет для каждой новой таблицы, которая появляется в каталоге данных, без необходимости каждый раз менять имя таблицы вручную?

Спасибо

1 Ответ

0 голосов
/ 17 мая 2018

Вы можете использовать Клиент каталогов для динамического получения списка таблиц в базе данных. Я не знаю, как получить клиент каталога в pyspark, но в Scala это выглядит так

val catalog = glueContext.getCatalogClient

for (table <- catalog.listTables("myDatabaseName", "").getTableList.asScala) {
    // do your transformation
}
...