Pyspark Dataframe для Pandas Dataframe - PullRequest
       3

Pyspark Dataframe для Pandas Dataframe

0 голосов
/ 10 сентября 2018

получаю ниже

Ошибка при преобразовании pyspark Dataframe в Pandas Dataframe

Код:

some_df = sc.parallelize([
 ("A", "no"),
 ("B", "yes"),
 ("B", "yes"),
 ("B", "no")]
 ).toDF(["user_id", "phone_number"])

pandas_df = some_df.toPandas()

Ошибка: Py4JJavaError: Произошла ошибка при вызове o104.collectToPython. enter image description here

1 Ответ

0 голосов
/ 10 сентября 2018

Он нормально работает в моей системе. Я проверил это, эта ошибка возникает, когда spark хочет загрузить все данные в память драйвера, поэтому, вероятно, у вас недостаточно памяти, чтобы увеличить объем памяти вашего драйвера, что должно решить проблему или очистить мусор с помощью gc.collect() дайте мне знать, если это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...