Я пытаюсь прочитать файл паркета из папки hdfs, выполнить некоторые преобразования и перезаписать файл в том же месте. Мне пришлось перезаписать файл в том же месте, потому что мне пришлось запускать один и тот же код несколько раз.
Вот код, который я написал
val df = spark.read.option("header", "true").option("inferSchema", "true").parquet("hdfs://master:8020/persist/local/")
//after applying some transformations lets say the final dataframe is transDF which I want to overwrite at the same location.
transDF.write.mode("overwrite").parquet("hdfs://master:8020/persist/local/")
Теперь проблема в том, что перед чтением файла паркета из заданного места, спарк почему-то, я полагаю, удаляет файл в заданном месте из-за режима перезаписи. Поэтому при выполнении кода я получаю следующую ошибку.
File does not exist: hdfs://master:8020/persist/local/part-00000-e73c4dfd-d008-4007-8274-d445bdea3fc8-c000.snappy.parquet
Есть предложения, как решить эту проблему? Благодарю.