Чтобы преобразовать Spark DataFrame в Pandas DataFrame, вы можете включить spark.sql.execution.arrow.enabled
в true
, а затем прочитать / создать DataFrame с помощью Spark и затем преобразовать его в Pandas DataFrame с помощью стрелки
- Включить
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
- Создать DataFrame, используя Spark, как вы это сделали:
val someDF = spark.createDataFrame()
Преобразуйте то же самое в pandas DataFrame
result_pdf = someDF.select("*").toPandas()
Вышеприведенные команды выполняются с использованием стрелки, поскольку config spark.sql.execution.arrow.enabled
имеет значение true
Hope это помогает!