Pyspark: преобразование pyspark.sql.row в датафрейм - PullRequest
0 голосов
/ 13 июня 2018

У меня есть следующий ряд в pyspark.Я хочу объединить его с фреймом данных pandas.

Row(Banked_Date_Calc__c=0   NaN
Name: Banked_Date_Calc__c, dtype: float64, CloseDate=0    2018-06-13T00:00:00.000Z
Name: CloseDate, dtype: object, CourseGEV__c=0    2990
Name: CourseGEV__c, dtype: int64, Id=0    0060h0000169NWLAA2
Name: Id, dtype: object, OwnerId=0    0050L000008Z30mQAC
Name: OwnerId, dtype: object, timestamp=0   2018-06-13 17:02:30.017566
Name: timestamp, dtype: datetime64[ns])

Сейчас я получаю сообщение об ошибке, что DataFrame не вызывается должным образом, когда я помещаю вышеупомянутую строку в pd.DataFrame (msg)

msg = Row(.....) #Row is from above
pd.DataFrame(msg)

1 Ответ

0 голосов
/ 13 июня 2018

Вы не можете передать строку pyspark непосредственно в конструктор Pandas Dataframe.Вы можете сделать это с помощью промежуточного слова.

row_d = Row(...).asDict()
pd_df = pd.DataFrame.from_dict(row_d)
...