Можно ли использовать AWS Glue Connection для создания источника данных? - PullRequest
0 голосов
/ 26 июня 2019

Я пытаюсь получить доступ к базе данных в частной подсети в скрипте задания AWS Glue. Как видно из документации, можно создать источник данных, используя различные «типы подключения» и соответствующие «параметры подключения», но они не поддерживают настройки VPC.

Единственное, что поддерживает настройки VPC - это AWS Glue Connection, но я не могу найти способ создания источника данных Spark с помощью AWS Glue Connection.

Или, может быть, есть какое-то решение?

1 Ответ

2 голосов
/ 27 июня 2019

См. Шаг 8 в этом руководстве . После добавления соединения Glue jdbc создайте искатель для импорта метаданных таблицы из исходной базы данных в каталог данных AWS Glue.

Затем вы можете получить доступ к таблице в работе Glue следующим образом:

df = glueContext.create_dynamic_frame.from_catalog(database = "db1", table_name = "table1")

Или с искрой:

df = spark.sql("SELECT * FROM db1.table1")
...