Я пытаюсь запустить функцию pandas udf в блокноте jupyter, куда я хочу импортировать модуль, который я написал в этом pandas udf. Код можно запустить в локальном режиме. Но когда я пытаюсь запустить его в несколько узлов. Это показывает, что модель не найдена у других исполнителей.
Без pandas udf я могу импортировать модуль на нескольких узлах. Итак, я думаю, что это какая-то проблема, связанная с пандами udf.
Кто-нибудь сталкивался с подобной проблемой раньше? Любое решение?
Ниже мой код в блокноте Jupyter:
from pyspark.sql.functions import pandas_udf, PandasUDFType
from pyspark.sql.types import *
schema_return=spark_df.schema
@pandas_udf(schema_return, PandasUDFType.GROUPED_MAP)
def scoring_pudf(snap_df):
import numpy as np
import pandas as pd
import re
import pyarrow.parquet as pq
from datetime import datetime, date
from dateutil.relativedelta import relativedelta
import time
import config as conf
from econ import EconData
#initialize & read in configration file
config = conf.DevConfig()
#initialize & read in econ data
econ = EconData(config)
return econ
Ошибка:
ModuleNotFoundError: No module named 'config'