Я не знаю напрямую о pyspark, но я бы предположил, вместо этой структуры данных:
[[1, 2, 3, 4],
[2, 3, 4, 5]]
вам нужно дать это
[[1, 2],
[2, 3],
[3, 4],
[4, 5]]
Пояснительный способперейти от вашей структуры данных к тому, что требуется, это использовать numpy для транспонирования:
import numpy as np
a=[1, 2, 3, 4]
b=[2, 3, 4, 5]
sqlContext.createDataFrame((np.array([a, b])).T, schema=['a', 'b']).show()