У меня есть две таблицы RDD, часть и части.
У них есть общий столбец joinKey.Я попытался объединить эти две таблицы, используя этот код:
part = sc.textFile("/data/tpch/data-001/part/")
parts = sc.textFile("/data/tpch/data-001/parts/")
joinedRDD = part.join(parts)
Однако, когда я пытаюсь отобразить joinRDD JoinRDD.take (3)
Я получаю обратно:
[(u'1', (u'|', u'|')), (u'1', (u'|', u'|')), (u'1', (u'|', u'|'))]
Что дает?