У нас есть большое приложение Apache Spark, работающее в Amazon EMR. Я пытаюсь избавиться от всех сообщений WARN в лог-файле.
Когда наше приложение запускается, мы создаем ZIP-файл исходного кода программы Python, помещаем его в ZIP-файл (здесь) Programs95923.zip и предоставляем ZIP-файл для spark-submit
с аргументом --files $ZIPFILE
(где $ZIPFILE
) - это созданный нами ZIP-файл.
Hm. Кажется, мы также предоставляем ZIPFILE для spark-submit
, используя --py-files $ZIPFILE
. Я не уверен, почему мы предоставляем это дважды; Я не написал весь этот код.
Вопросы:
- Имеет ли значение это предупреждение?
- Должны ли мы предоставлять только
--files
или --py-files
, а не оба?