Используйте Google Cloud SQL или MongoDB в качестве входных данных для Dataflow / Dataproc - PullRequest
0 голосов
/ 12 июня 2018

Я планирую подготовить конвейер данных без сервера с помощью Google Cloud Platform.Я планирую использовать Dataflow / Dataproc для пакетной обработки данных из трех разных источников.

Мои источники ввода:

  1. Cloud SQL (MySQL)
  2. Cloud SQL(PostgreSQL)
  3. MongoDB

Но после прочтения их документации я получил, что они не имеют никакого ввода для облачного SQL или MongoDB.

Также я проверил их раздел пользовательских драйверов, но это только для Java, но я планирую использовать Python.

Есть ли какие-либо идеи, как я могу использовать эти 3 различных источника с потоком данных/ Dataproc?

1 Ответ

0 голосов
/ 12 июня 2018

В вашей ситуации, я думаю, лучший вариант - использовать Dataproc.Всякий раз, когда это будет пакетная обработка.

Таким образом, вы можете использовать Hadoop или Spark и иметь больший контроль над рабочим процессом.

Вы можете использовать код Python со Spark.{1}

Вы можете выполнять SQL-запросы с помощью Spark.{2}

Также имеется разъем для MongoDB и Spark.{3}

И разъем для MongoDB и Hadoop.{4}

{1}: https://spark.apache.org/docs/0.9.0/python-programming-guide.html

{2}: https://spark.apache.org/docs/latest/sql-programming-guide.html

{3}: https://docs.mongodb.com/spark-connector/master/

{4}: https://docs.mongodb.com/ecosystem/tools/hadoop/

...