Модуль не найден в UDF для Pandas для нескольких узлов - PullRequest
1 голос
/ 11 апреля 2019

Я пытаюсь запустить функцию pandas udf в блокноте jupyter, куда я хочу импортировать модуль, который я написал в этом pandas udf. Код можно запустить в локальном режиме. Но когда я пытаюсь запустить его в несколько узлов. Это показывает, что модель не найдена у других исполнителей.

Без pandas udf я могу импортировать модуль на нескольких узлах. Итак, я думаю, что это какая-то проблема, связанная с пандами udf.

Кто-нибудь сталкивался с подобной проблемой раньше? Любое решение?

Ниже мой код в блокноте Jupyter:

from pyspark.sql.functions import pandas_udf, PandasUDFType
from pyspark.sql.types import *
schema_return=spark_df.schema
@pandas_udf(schema_return, PandasUDFType.GROUPED_MAP)
def scoring_pudf(snap_df):
    import numpy as np
    import pandas as pd
    import re
    import pyarrow.parquet as pq
    from datetime import datetime, date
    from dateutil.relativedelta import relativedelta
    import time

    import config as conf
    from econ import EconData


    #initialize & read in configration file
    config = conf.DevConfig()

    #initialize & read in econ data
    econ = EconData(config)

    return econ

Ошибка:

ModuleNotFoundError: No module named 'config'
...