Ошибка Spark toPandas () в кластере - PullRequest
       65

Ошибка Spark toPandas () в кластере

0 голосов
/ 25 сентября 2019

Работает Spark кластер 256 ГБ памяти (DRIVER), 32 ядра с одинаковыми рабочими.

5.5 Среда Conda Beta Spark 2.4.3

Я преобразую фрейм данных искры в Pandas

Я использую databricks-connect для моего локального ноутбука Jupyter, и все работает нормально, покаЯ запускаю функцию toPandas ().

Результирующий кадр данных состоит только из столбцов без значений строки.

Полученный кадр данных имеет тип Pandas.

Когда я выполняю тот же запрос в блокноте блоков данных, результирующий кадр данных заполняется и корректируется.

Я проверил, что моя версия для подключения к базе данных - 5.5 (такая же, как и моя версия)

Я установил spark.conf.set ("spark.sql.execution.arrow.enabled", "true ")

Это не проблема памяти, так как мой Драйвер имеет 256 ГБ памяти и используется только 4 ГБ.Сам файл 10 ГБ.

В искровом пользовательском интерфейсе нет stderr

Для очень маленького набора данных toPandas () работает в локальном Jupyter. Но происходит сбой в большом наборе данных.Тот же самый большой запрос к набору данных в блокноте блоков данных дает правильный фрейм данных.

...