Я хочу добавить несколько импортов python в существующий код pyspark. Мое намерение состоит в том, чтобы, поскольку там должен быть какой-то файл, который используется для загрузки исполнителя и последующего выполнения заданий на нем.
Моя проблема в том, что если я помещаю эти импорты в функцию, которая передается в mapPartition()
, то эти импорты выполняются для каждого раздела для каждого задания, которое, как вы видите, снижает производительность, потому что импорт немного тяжел ( (2,5 секунды), что означает, что для каждой работы в разделе перед выполнением кода функции тратятся драгоценные 2,5 секунды на импорт.
Моя идея / hinch заключается в том, что в pyspark должна быть какая-то функция в файле (worker.py или daemon.py), где я могу поместить эти операции импорта, чтобы они могли быть выполнены только один раз. Я уже прошел через код, но не смог найти решение своей проблемы. Я на правильном пути или я что-то упустил?