Когда я записываю промежуточный DF в csv и считываю его обратно как Dataframe и выполняю операции быстрее, чем я кеширую промежуточный файл df (group_df в нижеследующем потоке) и выполняю операцию над ним ..
Пожалуйста, посмотрите пример
1. input_df(dataframe) => 20 million records
2. group_df(dataframe) => 27k records
input_df => group_df => perform operations
Я пытаюсь использовать варианты ниже, а третий выглядит быстрее .. Не могли бы вы объяснить это поведение.
1. group_df.cache()
2. group_df.persist(StorageLevel.DISK_ONLY)
3. write the group_df to csv and read it back as dataframe