Создание файла Pyspark с использованием pandas udf - PullRequest
0 голосов
/ 23 апреля 2020

Наличие кластера pyspark из двух серверов 111.123.23.224 (мастер), 111.123.34.234 (работник) Попытка создать временный файл выбора для хранения моей модели после обучения в функции pandas udf. Но рассол иногда создается на главном сервере, а иногда на рабочем сервере. Что мне нужно сделать, чтобы мой файл pickle всегда создавался либо в master, либо в рабочем файле. Ниже приведен код, который я пытаюсь

@ pandas_udf (схема, functionType = pandasUDFType.GROUPED_MAP) def train_model (df_ pandas) ):

model=NearestNeighbours(number_neighbours=5).fit(df_pandas)
file=open("/tmp/model.pkl", "wb")
pickle.dump(model, file)
file.close()

df.groupBY("id").apply(train_model)

Но с учетом вышесказанного файл model.pkl иногда создается внутри 111.123.23.224 (мастер), а иногда в 111.123.34.234 (работник). Какое решение, так что мой файл model.pkl всегда будет создавать либо в master или slave

...