Как вы уже поняли, Append
в Spark означает запись в существующий каталог, а не добавление в файл.
Это преднамеренное и желаемое поведение (подумайте, что произойдет, если процесс потерпит неудачу в середине«добавления», даже если формат и файловая система это позволяют).
Такие операции, как слияние файлов, должны применяться отдельным процессом, если это вообще необходимо, что обеспечивает корректность и отказоустойчивость.К сожалению, для этого требуется полная копия, которая по понятным причинам нежелательна для каждой партии.