Я очень новичок в Pyspark, пожалуйста, примите во внимание:)
В основном у меня есть два текстовых файла:
file1:
1,9,5
2,7,4
3,8,3
file2:
1,g,h
2,1,j
3,k,i
И код Python:
file1 = sc.textFile("/user/cloudera/training/file1.txt").map(lambda line: line.split(","))
file2 = sc.textFile("/user/cloudera/training/file2.txt").map(lambda line: line.split(","))
Сейчас выполняем это соединение:
join_file = file1.join(file2)
Я надеялся получить это:
(1,(9,5),(g,h))
(2,(7,4),(i,j))
(3,(8,3),(k,1))
Однако я получаю другой результат:
(1, (9,g))
(3, (8,k))
(2, (7,1))
Не указан ли какой-либо параметр в Join?
Спасибо!