Question

Как переписать часть огромного файла (более 1 ТБ)?

Я храню данные в файлах паркета, они разбиты по максимальному размеру блока. Можно ли обновить некоторые записи и переписать только те блоки без перезаписи.

Subhasish Guha · Answer 1 · 14 января 2019

Я бы предложил создать еще одно искровое задание и прочитать этот конкретный файл с полным путем смещения hdfs, например, hdfs: // user // part-000-. Это только прочитало бы этот файл, а затем изменило бы ваши данные соответствующим образом и записало бы данные в отдельный каталог hdfs, создав df.coalesce (1) .write.parquet (). Это вернуло бы вам один файл, который вы будете иметь в loopoop fs -cp / old / directory /, и удалите старый файл hadoop fs -rm /. Это легко решит вашу проблему, не мешая другим каталогам.

HDFS & Spark - переписать часть огромного файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

HDFS & Spark - переписать часть огромного файла

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов