У меня проблема с открытием бывшего искрового кадра данных на машине без pyspark.
Машина 1:
df = spark.read.parquet("hdfs://url.com:8000/data/project01/dflast.parquet")
print(df.count())
print(type(df))
df1 = df.toPandas()
print(type(df1))
pd.to_pickle(df1, 'df_last.pkl', compression='zip')
1200
class 'pyspark.sql.dataframe.DataFrame'
class 'pandas.core.frame.DataFrame'>
После этого Я загружаю рассол на свой локальный компьютер и пытаюсь открыть его, и получаю сообщение об ошибке
Машина 2:
df = pd.read_pickle('./data/df_last.pkl', compression='zip')
ModuleNotFoundError: No module named 'pyspark'>
Что не так? Зачем мне нужен pyspark, если я уже конвертировал его в pandas?