Как загрузить данные из AWS RDS в Google BigQuery в потоковом режиме? - PullRequest
1 голос
/ 18 февраля 2020

как загрузить данные из AWS RDS в Google BigQuery в потоковом режиме? Описание: у меня есть данные в RDS (SQL сервер), и я хочу загрузить эти данные в Google BigQuery в режиме реального времени.

Ответы [ 2 ]

1 голос
/ 19 февраля 2020

Нет прямого способа вставить изменения из Amazon RDS в Google Cloud BigQuery. Это можно сделать с помощью такого конвейера, как этот

Amazon RDS ---- Lambda / DMS ----> Потоки данных Kinesis ----- Lambda ----> BigQuery

  1. Считайте изменения из Amazon RDS в потоки данных Kinesis, используя Lambda или используйте Cloud DMS . Вы также можете отправить его sh в Kinesis Firehose для агрегирования / пакетирования записей.
  2. Используйте Lambda для чтения из потоков Kinesis / Firehose для вставки в BigQuery с помощью tabledata.insertAll (API потоковой передачи BQ ). Код будет чем-то похожим на this .
0 голосов
/ 19 февраля 2020

Вы можете использовать Cloud Transfer Transfer Service , которая управляет и планирует загрузку заданий в BigQuery. Это рекомендуемый метод миграции для этого варианта использования. Сначала вам нужно загрузить данные из AWS RDS в файлы CSV, а затем переместить их на S3. Amazon S3 переводы являются двухэтапным процессом:

  1. Служба передачи используется для передачи данных из S3 в GCS.
  2. Задание загрузки BQ используется для загрузки данных в BigQuery.

Другое интересное решение , которое я обнаружил, касается использования AWS Data Pipeline для экспорта данных из MySQL и передачи их в BigQuery.

Кроме того, Вы можете использовать один из инструментов ETL (см. здесь ), которые интегрированы с Amazon RDS и BigQuery, для передачи данных в BigQuery. Один из лучших - Fivetran .

Надеюсь, он вам поможет.

...