как разделить rdd-элементы по вкладкам и строкам, содержащим текст и числа в PySpark - PullRequest
0 голосов
/ 25 января 2020

У меня есть текстовый файл, подобный следующему

87687   564    A eats apple   10
76577   324    B plays Ball   7 
54325   654    C has Cat      9

Я хочу следующий вывод для rdd.take(10)

['87687', '564', 'A eats apple', '10']
['76577', '324', 'B plays Ball', '7'] 
['54325', '654', 'C has Cat', '9']

Я попробовал следующий код

rdd=mydata.map(lambda mydata: mydata.split("\t"))
rdd.take(10)

И я получаю это

[['87687', '564', 'A eats apple', '10'],
['76577', '324', 'B plays Ball', '7'], 
['54325', '654', 'C has Cat', '9']]

как мне избавиться от запятых и дополнительных скобок. Я искал "как преобразовать список списков в несколько списков в pyspark", но я думаю, что это не был правильный вопрос, скорее всего. пытаясь выучить Spark, помогите пожалуйста!

1 Ответ

0 голосов
/ 25 января 2020

отображение корректно, в rdd есть 3 элемента, это оператор take(), который преобразует элементы в список, отображает его строку и в столбце преобразует rdd в информационный кадр

...