spark.catalog.clearCache () удаляет запись - PullRequest
0 голосов
/ 25 июня 2019

Я работаю над большим набором данных, используя pyspark, подключившись к oracle. Я кеширую кадры данных везде, где это необходимо. Когда каждая функция завершена, я делаю spark.catalog.clearCache () и gc.collect. Эта операция удаляет запись, а другая запись перезаписывается другим значением. когда окончательный датафрейм в выходной файл. Это происходит для одних и тех же записей независимо от того, сколько раз я тестирую.

Может кто-нибудь сообщить, почему это происходит с clearCache ().

...