У меня есть Pyspark RDD, как показано в выходных данных ниже, как я могу преобразовать его в pandas dataframe.
rdd.take(3)
['REVISION 6 233188 AmericanSamoa 2001-01-19T01:12:51Z ip:office.bomis.com ip:office.bomis.com\nCATEGORY\nIMAGE\nMAIN\nTALK\nUSER\nUSER_TALK\nOTHER\nEXTERNAL\nTEMPLATE\nCOMMENT *\nMINOR 0\nTEXTDATA 1516',
'REVISION 6 133180191 AmericanSamoa 2007-05-24T14:41:33Z Ngaiklin 4477979\nCATEGORY\nIMAGE\nMAIN\nTALK\nUSER\nUSER_TALK\nOTHER\nEXTERNAL\nTEMPLATE R_from_CamelCase\nCOMMENT Robot: Automated text replacement (-\\[\\[(.*?[\\:|\\|])*?(.+?)\\]\\] +\\g<2>)\nMINOR 1\nTEXTDATA 5',
'REVISION 8 233189 AppliedEthics 2001-01-20T15:01:12Z ip:pD950754B.dip.t-dialin.net ip:pD950754B.dip.t-dialin.net\nCATEGORY\nIMAGE\nMAIN\nTALK\nUSER\nUSER_TALK\nOTHER\nEXTERNAL\nTEMPLATE\nCOMMENT *\nMINOR 1\nTEXTDATA 9']
Я использовал следующий фрагмент, но вывод идет в одном столбце .
df = rdd.map(lambda x: str(x)).map(lambda w: w.split(' ')).toDF()
Вывод:
+--------------------+
| _1|
+--------------------+
|REVISION 6 233188...|
|REVISION 6 133180...|