Работает Spark кластер 256 ГБ памяти (DRIVER), 32 ядра с одинаковыми рабочими.
5.5 Среда Conda Beta Spark 2.4.3
Я преобразую фрейм данных искры в Pandas
Я использую databricks-connect для моего локального ноутбука Jupyter, и все работает нормально, покаЯ запускаю функцию toPandas ().
Результирующий кадр данных состоит только из столбцов без значений строки.
Полученный кадр данных имеет тип Pandas.
Когда я выполняю тот же запрос в блокноте блоков данных, результирующий кадр данных заполняется и корректируется.
Я проверил, что моя версия для подключения к базе данных - 5.5 (такая же, как и моя версия)
Я установил spark.conf.set ("spark.sql.execution.arrow.enabled", "true ")
Это не проблема памяти, так как мой Драйвер имеет 256 ГБ памяти и используется только 4 ГБ.Сам файл 10 ГБ.
В искровом пользовательском интерфейсе нет stderr
Для очень маленького набора данных toPandas () работает в локальном Jupyter. Но происходит сбой в большом наборе данных.Тот же самый большой запрос к набору данных в блокноте блоков данных дает правильный фрейм данных.