Если вы хотите напрямую запустить скрипт, вы можете сделать это с помощью spark-submit:
spark-submit master local[*]/yarn other_parameters path_to_your_script.py
Но я бы предложил использовать API-интерфейсы Spark, поскольку они просты в использовании. Это снизит накладные расходы на кодирование.
Сначала вы должны создать переменную сеанса спарк, чтобы вы могли получить доступ ко всем функциям спарка:
spark = SparkSession
.builder()
.appName("SparkSessionZipsExample")
.config("parameters", "value")
.getOrCreate()
Далее, если вы хотите загрузить CSV-файл:
file = spark.read.csv("path to file")
Вы можете указать необязательные параметры, такие как заголовки, логическая схема и т. Д .:
file=spark.read.option("header","true").csv("path to your file")
'file' теперь будет фреймом данных pyspark.
Теперь вы можете написать конечный результат так:
file.write.csv("output_path")
Пожалуйста, обратитесь к документации: Документация искры для преобразований и другой информации.