Я выполняю задание PySpark , которое считывает данные из файла, если он существует, а если нет, создает пустой кадр данных, который затем записывается в виде файла для следующего запуска задания.
У меня один и тот же код работал на разных работах, но для этого. Каждый раз, когда я запускаю его во второй раз, даже если файл присутствует, он выдает ошибку , что файл отсутствует и , а затем даже удаляет его .
Любая информация будет полезна. Спасибо.
def load_master_logs(spark, master_path):
# verify master file exists, if not, create one with headers
file_mask = "part*.csv"
if glob.glob(os.path.join(master_path, file_mask)):
master_file = glob.glob(os.path.join(master_path, file_mask))[0]
master_df = spark.read.csv(master_file, header=True, schema=MASTER_SCHEMA)
else:
log_and_send_to_slack("No existing master file found creating new one")
master_df = spark.createDataFrame([], schema=MASTER_SCHEMA)
master_df.cache()
return master_df