Создание «среды» для облачного потока данных - PullRequest
0 голосов
/ 18 января 2019

Когда я запускаю свою работу с облачными потоками данных, я начинаю с импорта нужных мне библиотек (в python). Например:

google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0

Обычно это занимает несколько минут каждый раз, и я использую одну и ту же среду каждый раз, когда использую Cloud Dataflow. Есть ли способ «сохранить» эту среду, чтобы при запуске машины она была «готова»? Я видел «Шаблоны», но упоминалось только о создании переменных и т. Д., На самом деле библиотеки не установлены в среде (или, по крайней мере, я этого не видел).

Если бы кто-нибудь мог показать мне пример сохранения библиотеки в среде, это было бы здорово, например:

elasticsearch==6.0.0

1 Ответ

0 голосов
/ 18 января 2019

Насколько я понимаю ваш вариант использования, вы запускаете задание потока данных через какой-то сервер.

В этом случае вы можете указать библиотеки --requirements_file флаг для зависимостей PyPI или setup.py для не-PyPI зависимостей. У вас есть здесь несколько примеров и подробностей.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...