Как запланировать сканирование сайта в Google Cloud? - PullRequest
0 голосов
/ 04 апреля 2020

Я хочу сохранить копию Google Scrawing Frog для сканирования в Google Cloud. Это может быть в экземпляре Compute Engine или, возможно, в контейнере Kubernetes.

На моем компьютере можно запускать кричащие обходы лягушек, используя linux shell:

screamingfrogseospider --crawl https://www.example.com --headless --save-crawl --output-folder /tmp/cli

Возможно ли это сделать что-то подобное в Google Cloud?

В идеале я хотел бы запланировать какую-нибудь задачу cron, которая запускает вышеуказанную команду оболочки, вызывая сканирование веб-сайта; с полученным сканированием, сохраненным в корзину в хранилище Google Cloud.

Как я могу это сделать?

Кроме того, могу ли я устанавливать и планировать задачи cron в GCP, используя такой язык программирования, как Python? Идея состояла бы в том, чтобы люди в моей организации могли входить в пользовательский интерфейс (вероятно, встроенный в Flask) и планировать обход контента самостоятельно. Flask затем подключится к Google Cloud и настроит задачу.

1 Ответ

3 голосов
/ 04 апреля 2020

Вы можете использовать облачный планировщик GCP. По этой ссылке вы можете найти пример того, как запустить и остановить движок Compute с планировщиком cron [https://cloud.google.com/scheduler/docs/start-and-stop-compute-engine-instances-on-a-schedule] . В скрипте запуска GCE вы можете установить команду для сканирования сайта.

Другой вариант - Cloud composer, вы можете написать DAG, запланированный, когда вам нужно, и запустить команду оболочки с оператором airflow bash. (Облако composer является реализацией потока воздуха GCP)

...