Как конвертировать RDD в Dataframe с помощью Pyspark? - PullRequest
0 голосов
/ 12 февраля 2019

У меня есть RDD ниже, который я получил от клиента.Как я могу преобразовать этот RDD в Dataframe?

["Row(Moid=2, Tripid='11', Tstart='2007-05-28 08:53:14.040', Tend='2007-05-28 08:53:16.040', Xstart='9738.73', Ystart='103.246', Xend='9743.73', Yend='114.553')"]

1 Ответ

0 голосов
/ 13 февраля 2019

Примечание: Это не совсем ответ, но я не понимаю, о чем спрашивает ОП.Записать это в разделе комментариев было бы невозможно, но, возможно, мы сможем сделать это дальше.

OP говорит, что он / она получает СДР (якобы один элемент) от Клиента -

["Row(Moid=2, Tripid='11', Tstart='2007-05-28 08:53:14.040', Tend='2007-05-28 08:53:16.040', Xstart='9738.73', Ystart='103.246', Xend='9743.73', Yend='114.553')"]

Теперь OP хочет перевести это в DataFrame.Чтобы перевести это, нужно удалить строку с Row объекта, но OP должен уточнить, что ему нужно.

from pyspark.sql import Row
rdd_from_client = [Row(Moid=2, Tripid='11', Tstart='2007-05-28 08:53:14.040', Tend='2007-05-28 08:53:16.040', Xstart='9738.73', Ystart='103.246', Xend='9743.73', Yend='114.553')]
df = sqlContext.createDataFrame(rdd_from_client)
df.show(truncate=False)
+----+-----------------------+------+-----------------------+-------+-------+-------+-------+
|Moid|Tend                   |Tripid|Tstart                 |Xend   |Xstart |Yend   |Ystart |
+----+-----------------------+------+-----------------------+-------+-------+-------+-------+
|2   |2007-05-28 08:53:16.040|11    |2007-05-28 08:53:14.040|9743.73|9738.73|114.553|103.246|
+----+-----------------------+------+-----------------------+-------+-------+-------+-------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...