Я выбираю все из таблицы и создаю из нее фрейм данных (df), используя Pyspark. Который разделен как:
partitionBy('date', 't', 's', 'p')
Теперь я хочу получить количество разделов с помощью
df.rdd.getNumPartitions()
, но он возвращает намного большее число (15642 раздела), которое ожидалось (18 разделов):
команда show partitions в кусте:
date=2019-10-02/t=u/s=u/p=s
date=2019-10-03/t=u/s=u/p=s
date=2019-10-04/t=u/s=u/p=s
date=2019-10-05/t=u/s=u/p=s
date=2019-10-06/t=u/s=u/p=s
date=2019-10-07/t=u/s=u/p=s
date=2019-10-08/t=u/s=u/p=s
date=2019-10-09/t=u/s=u/p=s
date=2019-10-10/t=u/s=u/p=s
date=2019-10-11/t=u/s=u/p=s
date=2019-10-12/t=u/s=u/p=s
date=2019-10-13/t=u/s=u/p=s
date=2019-10-14/t=u/s=u/p=s
date=2019-10-15/t=u/s=u/p=s
date=2019-10-16/t=u/s=u/p=s
date=2019-10-17/t=u/s=u/p=s
date=2019-10-18/t=u/s=u/p=s
date=2019-10-19/t=u/s=u/p=s
Есть идеи, почему количество разделов такое огромное? и как я могу получить количество разделов, как ожидалось (18)