Похоже, что наиболее распространенный способ запуска задания "спарк" - это использование команды "отправка", как показано ниже ( источник ):
spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1
Будучи новичком в разработке, я хотел знать, почему этот первый метод предпочтительнее, чем запуск его из python ( пример ):
python pyfile-that-uses-pyspark.py
Первый метод дает много других примеров при поиске в теме, но не указаны явно причины этого. На самом деле, вот еще один вопрос переполнения стека , где один ответ, повторенный ниже, специально указывает ОП не использовать метод python, но не дает причину почему.
не запускайте свой py-файл как: python filename.py, вместо этого используйте: spark-submit filename.py
Может ли кто-нибудь дать понимание?