Я работаю над большим набором данных, используя pyspark, подключившись к oracle.
Я кеширую кадры данных везде, где это необходимо. Когда каждая функция завершена, я делаю spark.catalog.clearCache () и gc.collect. Эта операция удаляет запись, а другая запись перезаписывается другим значением.
когда окончательный датафрейм в выходной файл.
Это происходит для одних и тех же записей независимо от того, сколько раз я тестирую.
Может кто-нибудь сообщить, почему это происходит с clearCache ().