В моем общем искровом кластере по умолчанию python на рабочих нет необходимых мне пакетов. И я не могу напрямую редактировать конфиг искры. Итак, я скопировал среду в мой кластер, а затем запустил этот код, чтобы добавить каталог пакетов к пути, чтобы он был найден первым.
def fix_paths():
sys.path.insert(0, '/path/to/lib/python3.6/site-packages')
dataframe = spark_session.read.parquet("file_path")
dataframe.foreachPartition(fix_paths)
Этот код занимает много времени, и я думаю, что проблемы, если датафрейм перечитывается с диска. Есть ли другой способ убедиться, что эти пакеты читаются первыми, когда появляется новый работник?