У меня есть фрейм данных в scala, который является результатом попарного сравнения всех строк в исходных данных с самим собой вместе со счетом.Я ищу эффективный способ объединения двух строк, которые получаются в каждой паре (например, Value1, Value2 и Value2, Value1).
Если это уместно, этот фрейм данных создается из команды spark.read.table, ссылающейся на таблицу, которая содержит все эти строки.Моей первой мыслью был цикл, который в основном строил новый фрейм данных и проверял каждую строку, чтобы увидеть, сохранили ли мы эту пару в новой, но я надеялся, что есть более эффективный способ, который позволит сделать это гораздо более эффективно..
Оптимально, я бы посмотрел на подмножество значений в пределах диапазона оценок и объединил несколько строк в «первую» (где «первая» может быть только в алфавитном порядке).
Данные
Item1 Item2 1.5
Item2 Item1 1.5
Item3 Item4 2.6
Item4 Item3 2.6
Item3 Item5 2.7
Item5 Item3 2.7
Результат
Item1 Item2 1.5
Item3 Item4 2.6
Item3 Item5 2.7