Я использую Hadoop
для хранения своих данных - для некоторых данных я использую разделы, для некоторых - нет.
Я сохраняю данные в формате parquet
с использованием класса pyspark DataFrame
, например:
df = sql_context.read.parquet('/some_path')
df.write.mode("append").parquet(parquet_path)
Я хочу написать скрипт, который удаляет старые данные аналогичным образом (мне нужно запросить эти старые данные с фильтрацией по фрейму данных) с помощью pyspark
. Я не нашел что-то в документации pyspark
...
Есть ли способ достичь этого?