Эффективный способ справиться с постоянно меняющимися путями - PullRequest
0 голосов
/ 31 января 2020

Я работаю с огромным количеством путей в PySpark.

Недавно мы перешли от работы в локальной сети к работе в Google Cloud. Поскольку пути в облаке Google постоянно меняются, я пытаюсь найти способ справиться с этими изменениями путей.

Я думал о создании файла конфигурации для путей («configuration_paths.py). После этого я бы импортировал пути из этого файла. В коде PySpark вместо введения путей я хочу вызывать (“configuration_paths.py) и вставлять пути как переменные.

Я думаю, что таким образом, обновления пути могут быть легко сделаны в («configuration_paths.py).

Пример. В файле конфигурации для путей (“configuration_paths.py") у меня будет что-то похожее на это:

enter image description here

А в остальных кодах мы должны импортировать `«configuration_paths.py. В этих кодах вместо путей мы должны использовать имена переменных. Пример:

Import configuration_paths.py as conf

# Here we need a code to relate variable names with conf file paths

Variable1 = conf [0]
Variable2 = conf [2]


iris_data = pd.read_csv(Variable1).values
setosa_data = pd.read_csv(Variable2).values
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...