PySpark ImportError: модуль не указан, хотя включен в --pyfiles - PullRequest
0 голосов
/ 29 ноября 2018

Я пытаюсь запустить приложение PySpark.команда spark submit выглядит примерно так.

spark-submit --py-files /some/location/data.py /path/to/the/main/file/etl.py

Мой основной файл (etl.py) импортирует data.py и использует функции из файла data.py, код выглядит следующим образом.

    import data
    def main(args_dict):
        print(args_dict)
        df1 = data.get_df1(args_dict['df1name'])
        df1 = data.get_df2(args_dict['df1name'])
        ...
        ...
        ...

I'mПередавая файл data.py в --py-files, но когда я запускаю spark-submit, я получаю ImportError: No module named 'data' Я пытаюсь выяснить, что я делаю здесь неправильно.Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...