Удаление промежуточного каталога Hive для работающей Spark JOB - PullRequest
0 голосов
/ 07 мая 2018

Что произойдет, если для работающей Spark JOB другой процесс удалит каталог .hiveStaging?

  1. Это приведет к отказу JOB
  2. Потеря данных, но JOB Успех
  3. Не потеря данных и JOB Success

Или существуют ли какие-либо блокировки HDFS, из-за которых каталог не будет удален

Спасибо

1 Ответ

0 голосов
/ 07 мая 2018

Hive использует временные папки как на компьютере с клиентом Hive, так и в экземпляре HDFS по умолчанию. Эти папки используются для хранения временных / промежуточных наборов данных для каждого запроса и, как правило, очищаются клиентом куста после завершения запроса.

Как только выполнение запроса завершается, данные перемещаются в выходную папку HDFS.

Когда вы удаляете каталог .hiveStaging, ваш запрос / код драйвера куста не будет выполнен с java.io.IOException.

...