Чтение файлов в экземпляре вычислений через облачный поток данных - PullRequest
0 голосов
/ 06 октября 2019

Я хотел бы получить доступ к файлам, присутствующим в виртуальной машине Compute Engine. Я должен прочитать файл из GCE и должен преобразовать файлы в GCS, используя python SDK в облачном потоке данных. Если кто-нибудь подскажет мне об этом, будет полная помощь.

1 Ответ

0 голосов
/ 06 октября 2019

У вас есть несколько решений.

  1. Если ваше преобразование может стоять на ВМ (нет необходимости в горизонтальной масштабируемости), вы можете запустить конвейер Beam непосредственно на ВМ с помощью DirectRunnerrunner
  2. Если вы хотите использовать Dataflow, вы должны поместить свой файл в доступное хранилище: Google Cloud Storage. Вы можете использовать rsync, если вам нужно синхронизировать каталог с сегментом , и вы можете создать его на своей виртуальной машине. Затем создайте конвейер, чтобы прочитать файл из корзины и обработать его
  3. Если ваш файл «загружается» в BigQuery, вы можете загрузить его в BigQuery и выполнить преобразование с помощью SQL и UDF и представьте результат в другой таблице, а затем извлеките его в GCS

Более подробно с пожеланиями и ограничениями мы могли бы уточнить ответ.

...