pyspark - объединить два RDD - отсутствует третий столбец - PullRequest
0 голосов
/ 08 декабря 2018

Я очень новичок в Pyspark, пожалуйста, примите во внимание:)

В основном у меня есть два текстовых файла:

file1:

  1,9,5
  2,7,4
  3,8,3

file2:

 1,g,h
 2,1,j
 3,k,i

И код Python:

file1 = sc.textFile("/user/cloudera/training/file1.txt").map(lambda line: line.split(","))

file2 = sc.textFile("/user/cloudera/training/file2.txt").map(lambda line: line.split(","))

Сейчас выполняем это соединение:

join_file = file1.join(file2)

Я надеялся получить это:

(1,(9,5),(g,h))
(2,(7,4),(i,j))
(3,(8,3),(k,1))

Однако я получаю другой результат:

(1, (9,g))
(3, (8,k))
(2, (7,1))

Не указан ли какой-либо параметр в Join?

Спасибо!

1 Ответ

0 голосов
/ 08 декабря 2018

Это должно сработать:

file1 = sc.textFile("/FileStore/tables/f1.txt").map(lambda line: line.split(",")).map(lambda x: (x[0], list(x[1:])))
file2 = sc.textFile("/FileStore/tables/f2.txt").map(lambda line: line.split(",")).map(lambda x: (x[0], list(x[1:])))
join_file = file1.join(file2)
join_file.collect()

возвращает с Unicode u ':

Out[3]: 
[(u'2', ([u'7', u'4'], [u'1', u'j'])),
 (u'1', ([u'9', u'5'], [u'g', u'h'])),
 (u'3', ([u'8', u'3'], [u'k', u'i']))]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...