HDFS & Spark - переписать часть огромного файла - PullRequest
0 голосов
/ 14 января 2019

Как переписать часть огромного файла (более 1 ТБ)?

Я храню данные в файлах паркета, они разбиты по максимальному размеру блока. Можно ли обновить некоторые записи и переписать только те блоки без перезаписи.

1 Ответ

0 голосов
/ 14 января 2019

Я бы предложил создать еще одно искровое задание и прочитать этот конкретный файл с полным путем смещения hdfs, например, hdfs: // user // part-000-. Это только прочитало бы этот файл, а затем изменило бы ваши данные соответствующим образом и записало бы данные в отдельный каталог hdfs, создав df.coalesce (1) .write.parquet (). Это вернуло бы вам один файл, который вы будете иметь в loopoop fs -cp / old / directory /, и удалите старый файл hadoop fs -rm /. Это легко решит вашу проблему, не мешая другим каталогам.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...