Добавить операторы импорта Python в код Pyspark - PullRequest
0 голосов
/ 26 октября 2018

Я хочу добавить несколько импортов python в существующий код pyspark. Мое намерение состоит в том, чтобы, поскольку там должен быть какой-то файл, который используется для загрузки исполнителя и последующего выполнения заданий на нем.

Моя проблема в том, что если я помещаю эти импорты в функцию, которая передается в mapPartition(), то эти импорты выполняются для каждого раздела для каждого задания, которое, как вы видите, снижает производительность, потому что импорт немного тяжел ( (2,5 секунды), что означает, что для каждой работы в разделе перед выполнением кода функции тратятся драгоценные 2,5 секунды на импорт.

Моя идея / hinch заключается в том, что в pyspark должна быть какая-то функция в файле (worker.py или daemon.py), где я могу поместить эти операции импорта, чтобы они могли быть выполнены только один раз. Я уже прошел через код, но не смог найти решение своей проблемы. Я на правильном пути или я что-то упустил?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...