Как добавить весь список содержимого в строку Pyspark Dataframe? - PullRequest
0 голосов
/ 18 февраля 2019

Я создаю новый фрейм данных pyspark из списка строк.Как должен выглядеть мой код?

Это мой список: ['there', 'is', 'one', 'that', 'команды'], и это то, что я хочу в идеале:

words (header)

Строка 1: ['there', 'is', 'one', 'that', 'команды'] Строка 2: ['test', 'try'

Я пыталсяиз следующих кодов, но ни один из них не дал мне именно то, что я хотел:*

1 Ответ

0 голосов
/ 18 февраля 2019

Вам просто нужно импортировать Row объект, остальные все было хорошо.

from pyspark.sql.types import Row, StructType, StructField, StringType
test_list=['hi','bye','thanks']
test_list=sc.parallelize(test_list)

rdd= test_list.map(lambda t: Row(name=t))
schema = StructType([StructField("name", StringType(), True)])
df = sqlContext.createDataFrame(rdd, schema)
df.show()
+------+
|  name|
+------+
|    hi|
|   bye|
|thanks|
+------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...