реляционная база данных с добавленной нагрузкой - PullRequest
0 голосов
/ 23 января 2019

Я загружаю данные из Amazon RDS (база данных Aurora) в Redshift, используя AWS Glue ETL. Но я не могу понять, как сделать добавочную загрузку (upsert)? Есть ли способ создать фильтр / параметр по дате при чтении из исходной базы данных для загрузки только новых / измененных записей в Redshift?

Я вижу, что источник S3 работает с закладками AWS, но какой вариант в случае реляционной базы данных. Ваши предложения очень ценятся! Спасибо!

1 Ответ

0 голосов
/ 23 января 2019

Я использовал соединитель mysql в качестве внешнего zip-файла, загруженного на S3, и использовал его в своем Python AWS Glue для встраивания запросов Mysql и запуска таблицы INSERT INTO ... ON DUPLICATE KEY для операций переноса в RDS Aurora. Если вы используете Mysql, вы можете выполнить то же самое для фильтрации результирующего набора на основе предложения where. Пожалуйста, обратитесь по этой ссылке:

Ошибка при использовании таблицы INSERT INTO для ключа DUPLICATE, при использовании массива цикла for

...