Попытка объединить или объединить два pyspark. sql .dataframe.DataFrame в среде Databricks - PullRequest
0 голосов
/ 06 февраля 2020

У меня есть два кадра данных в Azure Блок данных. Оба типа: pyspark. sql .dataframe.DataFrame

Количество строк одинаковое; индексы одинаковы. Я думал, что один из этих фрагментов кода, приведенный ниже, сработает.

Первая попытка:

result = pd.concat([df1, df2], axis=1)


Error Message: TypeError: cannot concatenate object of type "<class 'pyspark.sql.dataframe.DataFrame'>"; only pd.Series, pd.DataFrame, and pd.Panel (deprecated) objs are valid

Вторая попытка:

result = pd.merge(df1, df2, left_index=True, right_index=True)

Error Message:  TypeError: Can only merge Series or DataFrame objects, a <class 'pyspark.sql.dataframe.DataFrame'> was passed

1 Ответ

0 голосов
/ 06 февраля 2020

Я закончил преобразование двух объектов в pandas фреймы данных, а затем произвел слияние, используя технику, которую я умею использовать.

Шаг # 1:

df1= df1.select("*").toPandas()
df2= df2.select("*").toPandas()

Шаг # 2:

result = pd.concat([df1, df2], axis=1)

Готово!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...