У меня есть операция исключения на фрейме данных.
df1.except(df2)
Физический план становится операцией соединения в искре. Странное поведение - некоторые строки удаляются после SortMergeJoin. Я знаю, что есть проблемы с объединениями, когда DFs от того же самого оригинального DF https://issues.apache.org/jira/browse/SPARK-10925 ... Итак, я конвертирую DF в rdd и обратно, но это не решает проблему удаления строк.
Это так странно, что Spark сбрасывает строки после сортировки, просто во время какой-то операции Hash Aggregate ... c присоединен к dag