Можно ли запустить собственный скрипт Python в Apache Beam или облачном потоке данных Google - PullRequest
0 голосов
/ 30 октября 2019

Я хочу запустить один из моих скриптов на Python, используя GCP. Я довольно новичок в GCP, поэтому у меня не так много идей.

Мой скрипт Python собирает данные из BigQuery и выполняет эти задачи

Несколько операций обработки данных

Создайте модель ML, используя KDTree и несколько алгоритмов кластеризации

Вывод окончательного результата в таблицу большого запроса.

Этот сценарий должен запускаться каждую ночь.

Пока я знаюЯ могу использовать виртуальные машины, функцию Cloud Run, функцию Cloud (для меня это не очень хороший вариант, так как все займет около часа). Что мне лучше всего подойдет для этого?

Я столкнулся с Dataflow, но мне любопытно узнать, можно ли запустить собственный скрипт Python, который может делать все это в облачном потоке данных Google (при условии, чтоЯ должен буду преобразовать все в формат карты-сокращения, который не кажется легким с моим кодом, особенно часть ML)?

1 Ответ

0 голосов
/ 31 октября 2019

Вам нужен только скрипт Python, который запускается на одном экземпляре в течение пары часов и затем завершается?

Вы можете настроить микросервис движка приложения «базовое масштабирование» в своем проекте GCP. Максимальное время выполнения задач в очереди задач составляет 24 часа при использовании «базового масштабирования».

Запросы могут выполняться до 24 часов. Базовый масштабируемый экземпляр может выбрать обработку / _ah / запуска и выполнение программы или скрипта в течение многих часов без возврата кода ответа HTTP. Задачи очереди задач могут выполняться до 24 часов.

https://cloud.google.com/appengine/docs/standard/python/how-instances-are-managed

...