Question

Я изменил сгенерированный Glue скрипт, который я использую для преобразования и манипулирования данными.Я хочу запускать одно и то же задание по триггеру для каждой новой таблицы, которая появляется в каталоге, но без изменения имени таблицы в скрипте задания.Короче говоря, как я могу выполнить одно и то же преобразование, которое скрипт предоставляет для каждой новой таблицы, которая появляется в каталоге данных, без необходимости каждый раз менять имя таблицы вручную?

Спасибо

botchniaque · Answer 1 · 17 мая 2018

Вы можете использовать Клиент каталогов для динамического получения списка таблиц в базе данных. Я не знаю, как получить клиент каталога в pyspark, но в Scala это выглядит так

val catalog = glueContext.getCatalogClient

for (table <- catalog.listTables("myDatabaseName", "").getTableList.asScala) {
    // do your transformation
}

AWS клеевой запуск работы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

AWS клеевой запуск работы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы