Я пытаюсь запустить приложение PySpark.команда spark submit выглядит примерно так.
spark-submit --py-files /some/location/data.py /path/to/the/main/file/etl.py
Мой основной файл (etl.py) импортирует data.py и использует функции из файла data.py, код выглядит следующим образом.
import data
def main(args_dict):
print(args_dict)
df1 = data.get_df1(args_dict['df1name'])
df1 = data.get_df2(args_dict['df1name'])
...
...
...
I'mПередавая файл data.py в --py-files, но когда я запускаю spark-submit, я получаю ImportError: No module named 'data'
Я пытаюсь выяснить, что я делаю здесь неправильно.Спасибо.