Question

У меня проблема с открытием бывшего искрового кадра данных на машине без pyspark.

Машина 1:

df = spark.read.parquet("hdfs://url.com:8000/data/project01/dflast.parquet")
print(df.count())
print(type(df))
df1 = df.toPandas()
print(type(df1))
pd.to_pickle(df1, 'df_last.pkl', compression='zip')

1200

class 'pyspark.sql.dataframe.DataFrame'

class 'pandas.core.frame.DataFrame'>

После этого Я загружаю рассол на свой локальный компьютер и пытаюсь открыть его, и получаю сообщение об ошибке

Машина 2:

df = pd.read_pickle('./data/df_last.pkl', compression='zip')

ModuleNotFoundError: No module named 'pyspark'>

Что не так? Зачем мне нужен pyspark, если я уже конвертировал его в pandas?

Ошибка чтения pandas кадра данных, который был первоначально преобразован из pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Ошибка чтения pandas кадра данных, который был первоначально преобразован из pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов