Ошибка чтения pandas кадра данных, который был первоначально преобразован из pyspark - PullRequest
0 голосов
/ 23 апреля 2020

У меня проблема с открытием бывшего искрового кадра данных на машине без pyspark.

Машина 1:

df = spark.read.parquet("hdfs://url.com:8000/data/project01/dflast.parquet")
print(df.count())
print(type(df))
df1 = df.toPandas()
print(type(df1))
pd.to_pickle(df1, 'df_last.pkl', compression='zip')
1200

class 'pyspark.sql.dataframe.DataFrame'

class 'pandas.core.frame.DataFrame'>

После этого Я загружаю рассол на свой локальный компьютер и пытаюсь открыть его, и получаю сообщение об ошибке

Машина 2:

df = pd.read_pickle('./data/df_last.pkl', compression='zip')

ModuleNotFoundError: No module named 'pyspark'>

Что не так? Зачем мне нужен pyspark, если я уже конвертировал его в pandas?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...