Question

У меня есть текстовый файл, подобный следующему

87687   564    A eats apple   10
76577   324    B plays Ball   7 
54325   654    C has Cat      9

Я хочу следующий вывод для rdd.take(10)

['87687', '564', 'A eats apple', '10']
['76577', '324', 'B plays Ball', '7'] 
['54325', '654', 'C has Cat', '9']

Я попробовал следующий код

rdd=mydata.map(lambda mydata: mydata.split("\t"))
rdd.take(10)

И я получаю это

[['87687', '564', 'A eats apple', '10'],
['76577', '324', 'B plays Ball', '7'], 
['54325', '654', 'C has Cat', '9']]

как мне избавиться от запятых и дополнительных скобок. Я искал "как преобразовать список списков в несколько списков в pyspark", но я думаю, что это не был правильный вопрос, скорее всего. пытаясь выучить Spark, помогите пожалуйста!

Ahmed · Answer 1 · 25 января 2020

отображение корректно, в rdd есть 3 элемента, это оператор take(), который преобразует элементы в список, отображает его строку и в столбце преобразует rdd в информационный кадр

как разделить rdd-элементы по вкладкам и строкам, содержащим текст и числа в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как разделить rdd-элементы по вкладкам и строкам, содержащим текст и числа в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы