Раздел RDD не показывает значения - PullRequest
0 голосов
/ 11 февраля 2020
print("\n ### Remove duplicates in merged RDD:")

insuredata = insuredatamerged_cache.distinct()
print("insuredata: ",type(insuredata))

print("\n  ### Increase partition to 8 in merged RDD:")
insuredata.getNumPartitions()
insuredatarepart = insuredata.repartition(8)
insuredatarepart.getNumPartitions()

Вывод:

Удаление дубликатов в объединенной СДР:

insuredata: class 'pyspark.rdd.PipelinedRDD' Количество результатов после удаления дубликатов: 1407 Количество результатов удалено дубликатов: 1

Увеличить раздел до 8 в объединенной СДР:

insuredatarepart: класс 'pyspark.rdd.RDD'

в нем не отображаются значения для getNumPartitions () до и после переразделения.

...