Question

Я использую Hadoop для хранения своих данных - для некоторых данных я использую разделы, для некоторых - нет. Я сохраняю данные в формате parquet с использованием класса pyspark DataFrame, например:

df = sql_context.read.parquet('/some_path')
df.write.mode("append").parquet(parquet_path)

Я хочу написать скрипт, который удаляет старые данные аналогичным образом (мне нужно запросить эти старые данные с фильтрацией по фрейму данных) с помощью pyspark. Я не нашел что-то в документации pyspark ...

Есть ли способ достичь этого?

Jim Todd · Answer 1 · 14 апреля 2019

Pyspark является преимущественно процессором обработки. Удаление может быть обработано модулем subprocess самого Python.

import subprocess

some_path = ...
subprocess.call(["hadoop", "fs", "-rm", "-f", some_path])

Удаление файлов из Hadoop с помощью pyspark (Query)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удаление файлов из Hadoop с помощью pyspark (Query)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов