Может ли GCP Dataproc передавать данные (или запускать другие задания) из локальной БД? - PullRequest
0 голосов
/ 12 марта 2019

Может ли GCP Dataproc sqoop импортировать данные из локальной БД для помещения в GCP Storage (без GCP VPC)?

У нас есть удаленная БД Oracle, подключенная к нашей локальной сети через VPN-туннель, который мы используем кластер Hadoop для извлечения данных из каждого дня через Apache Sqoop . Хотел бы заменить этот процесс кластером GCP Dataproc для запуска заданий sqoop и хранилища GCP. Нашел эту статью, которая, кажется, делает нечто подобное Перемещение данных с помощью Apache Sqoop в Google Cloud Dataproc , но предполагает, что пользователи имеют GCP VPC (который я не собирался покупать).

Итак, мой вопрос:

  • Без этого подключения VPC может ли кластер облачных данных знать, как получать данные из БД в нашей локальной сети, используя API отправки заданий ?
  • Как бы это работало, если так (возможно, я недостаточно понимаю, как рабочие места Hadoop работают / получают данные)?
  • Как-нибудь иначе, если нет?

1 Ответ

2 голосов
/ 13 марта 2019

Без использования VPC / VPN вы не сможете предоставить Dataproc доступ к вашей локальной БД.

Вместо использования VPC вы можете использовать VPN, если она лучше соответствует вашим потребностям: https://cloud.google.com/vpn/docs/

Единственный другой вариант, который у вас есть, - это открыть вашу локальную БД в Интернете, чтобы Dataproc мог получить к ней доступ без VPC / VPN, но это небезопасно по своей природе.

...