Удаление повторяющихся операций - дорогостоящая операция, поскольку она сравнивает значения из одного RDD со всеми другими RDD и пытается объединить результаты.Учитывая размер ваших данных, результаты могут занять много времени.
Я бы порекомендовал групповое преобразование столбцов вашего информационного кадра с последующим действием коммита.Таким образом, только консолидированные результаты вашего RDD будут сравниваться с другими RDD, которые слишком ленивы, и тогда вы можете запросить результат с помощью любого действия, такого как commit / show и т. Д.
transactions.groupBy("col1”,”col2").count.sort($"count".desc).show