Требуется ли для таблицы восстановления msck hadoop / map-Reduce? - PullRequest
0 голосов
/ 06 июня 2019

Я хочу запустить Hive, не удосужившись запустить hadoop / map-Reduce.

Я хочу, чтобы пользователи использовали куст только для метаданных и использовали spark, presto и т. Д. Для запросов / выполнения.

Я думаю, что это, как правило, будет работать, но меня беспокоит несколько административных команд. В частности, мне нужно знать, как работает msck repair table.

Требует ли эта команда map-redund для работы или куст обрабатывает ее в метастазах / etc?

1 Ответ

1 голос
/ 06 июня 2019

Карта Сокращение двоичных файлов как таковых не требуется для

Таблица ремонта msck.

Map Reduce (MR) - это концепция для крупномасштабных параллельных вычислений.

Hive будет использовать Map Reduce, если вы не используете Impala или другие исполнительные механизмы для обработки - например, Spark.

См. https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cdh_ig_hive_troubleshooting.html#hive_msck_repair_table_best_practices.

В любом случае использование HDFS и т. Д. Подразумевает установку Hadoop, и вы все равно получите все вкусности MR.

Конечно, вы можете запустить Spark без Hadoop. Тем не менее, некоторые его функции зависят от двоичных файлов Hadoop - например, Паркет.

РЕДАКТИРОВАТЬ - Извлечь это из комментариев, принимая, поскольку это очень полезно:

В этом связанном ответе подробно рассказывается о том, как восстановление msck работает под прикрытием, и разъясняется, что сокращение карты не запускается им.

Что MSCK REPAIR TABLE делает за кулисами и почему это так медленно?

...