почему искра сбрасывает ряды после сортировки? - PullRequest
0 голосов
/ 30 апреля 2018

У меня есть операция исключения на фрейме данных.

df1.except(df2) 

Физический план становится операцией соединения в искре. Странное поведение - некоторые строки удаляются после SortMergeJoin. Я знаю, что есть проблемы с объединениями, когда DFs от того же самого оригинального DF https://issues.apache.org/jira/browse/SPARK-10925 ... Итак, я конвертирую DF в rdd и обратно, но это не решает проблему удаления строк. Это так странно, что Spark сбрасывает строки после сортировки, просто во время какой-то операции Hash Aggregate ... c присоединен к dag enter image description here

...