print("\n ### Remove duplicates in merged RDD:")
insuredata = insuredatamerged_cache.distinct()
print("insuredata: ",type(insuredata))
print("\n ### Increase partition to 8 in merged RDD:")
insuredata.getNumPartitions()
insuredatarepart = insuredata.repartition(8)
insuredatarepart.getNumPartitions()
Вывод:
Удаление дубликатов в объединенной СДР:
insuredata: class 'pyspark.rdd.PipelinedRDD' Количество результатов после удаления дубликатов: 1407 Количество результатов удалено дубликатов: 1
Увеличить раздел до 8 в объединенной СДР:
insuredatarepart: класс 'pyspark.rdd.RDD'
в нем не отображаются значения для getNumPartitions () до и после переразделения.