Я хотел бы преобразовать линейный список в фрейм данных.
то есть, учитывая следующий список,
a = ["a1", "a2", "a3", b1", "b2", "b3", "c1", "c2", "c3"]
Ожидаемый результат:
+--------------------+
| col1 | col2 | col3 |
+--------------------+
| a1 | a2 | a3 |
| b1 | b2 | b3 |
| c1 | c2 | c3 |
+--------------------+
Я попробовал следующее, но получил ошибку.
from pyspark.sql.types import *
a = ["a1", "a2", "a3", "b1", "b2", "b3", "c1", "c2", "c3"]
rdd = sc.parallelize(a)
schema = StructType([
StructField("a", StringType(), True),
StructField("b", StringType(), True),
StructField("c", StringType(), True)
])
df = sqlContext.createDataFrame(rdd, schema)
df.show()
Последний оператор show () получает ошибку "Задание прервано из-за сбоя этапа".
Пожалуйста, кто-нибудь подскажет решение?
Благодаря.