Koalas applymap перемещает все данные в один раздел - PullRequest
0 голосов
/ 29 мая 2020

Мне нужно выполнить поэлементную операцию с фреймом данных Koalas. Я использую для этого метод Koalas applymap . При выполнении Коала перемещает все данные в один раздел, а затем применяет операцию. В результате производительность работы очень низка.

>>> sdf = spark.range(0, 10**7, 1, 10).toDF('col1').withColumn('col2', F.lit('[1,2]'))

>>> kdf = ks.DataFrame(sdf)

>>> kdf_new = kdf[['col2']].applymap(eval)

WARN window.WindowExec: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.

Как заставить Koalas не перемешивать данные и применять операцию в существующих разделах?

...