AWS клей RDS дополнительная нагрузка - PullRequest
0 голосов
/ 06 июня 2019

Я пытаюсь загрузить данные из AWS RDS (MySQL) в красное смещение, используя клей AWS.И я хочу загружать данные постепенно.Используя Job Bookmarks, клей может отслеживать только новые данные, но не может отслеживать обновленные строки.Есть ли способ загрузить только обновленные данные?может быть с помощью поля updated_at в исходной таблице из MySQL?

Ответы [ 2 ]

0 голосов
/ 09 июня 2019

Вы можете использовать запрос, чтобы найти обновленные записи, отфильтровав данные в исходной базе данных JDBC, как показано ниже в примере.Я передал дату в качестве аргумента, чтобы при каждом запуске я мог получать только последние значения из базы данных mysql в этом примере.

Пожалуйста, обратитесь к этому ответу, например

0 голосов
/ 07 июня 2019

Это невозможно при использовании закладок.Из документации AWS:

Job bookmarks are implemented for a limited use case for a relational database (JDBC connection) input source. For this input source, job bookmarks are supported only if the table's primary keys are in sequential order. Also, job bookmarks search for new rows, but not updated rows. This is because bookmarks look for the primary keys, which already exist.

https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

Клей должен будет загрузить все данные RDS в динамический фрейм или фрейм данных.Однако эти данные можно использовать для выполнения обновления в базе данных красного смещения, если вы пытаетесь избежать усечения таблицы красного смещения и перезагрузки всех данных.

https://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-upsert.html

...