Посмотреть информацию о разделах Spark Dataframe - PullRequest
0 голосов
/ 15 мая 2018

Можно иметь массив разделов Spark DataFrame следующим образом:

> df.rdd.partitions

Есть ли способ получить больше информации о разделах?В частности, я хотел бы видеть ключ раздела и границы раздела (первый и последний элемент в разделе).

Это просто для лучшего понимания того, как организованы данные.

Это то, что я пробовал:

> df.partitions.rdd.head

Но этот объект имеет только атрибуты и методы equals hashCode и index.

1 Ответ

0 голосов
/ 15 мая 2018

Если данные не слишком велики, их можно записать на диск следующим образом:

df.write.option("header", "true").csv("/tmp/foobar")

Указанный каталог не должен существовать.

...