Я работаю с огромным количеством путей в PySpark.
Недавно мы перешли от работы в локальной сети к работе в Google Cloud. Поскольку пути в облаке Google постоянно меняются, я пытаюсь найти способ справиться с этими изменениями путей.
Я думал о создании файла конфигурации для путей («configuration_paths.py). После этого я бы импортировал пути из этого файла. В коде PySpark вместо введения путей я хочу вызывать (“configuration_paths.py
) и вставлять пути как переменные.
Я думаю, что таким образом, обновления пути могут быть легко сделаны в («configuration_paths.py).
Пример. В файле конфигурации для путей (“configuration_paths.py"
) у меня будет что-то похожее на это:
А в остальных кодах мы должны импортировать `«configuration_paths.py. В этих кодах вместо путей мы должны использовать имена переменных. Пример:
Import configuration_paths.py as conf
# Here we need a code to relate variable names with conf file paths
Variable1 = conf [0]
Variable2 = conf [2]
iris_data = pd.read_csv(Variable1).values
setosa_data = pd.read_csv(Variable2).values