У меня есть RDD с 3 столбцами (road_idx, snodeidx, enodeidx).Выглядит это так:
(roadidx_995, 1138, 1145)
(roadidx_996, 1138, 1139)
(roadidx_997, 2740, 1020)
(roadidx_998, 2762, 2740)
(roadidx_999, 3251, 3240)
.........
Как сгруппировать road_idx, которые имеют один из общих snodeidx или enodeidx?Дайте каждой группе номер, начинающийся с 1.
ожидаемый результат:
(1,[roadidx_995,roadidx_996])
(2,[roadidx_997,roadidx_998])
(3,[roadidx_999])
, как показано выше,
roadidx_995 и roadidx_996 имеют одинаковые snodeidx 1138.
roadidx_997 имеет snodeidx , такой же, как enodeidx roadidx_998, который равен 2740.
roadidx_999 входит в группу самостоятельно.
Код Scala или код Python в порядке.Пока вы можете рассказать мне логику использования API RDD для получения ожидаемого результата.
Очень признателен!