Хранение данных Cloudera Hadoop в конкретный узел - PullRequest
0 голосов
/ 05 июня 2018

У меня есть 10 узлов кластера amazon ec2, используемых для каждодневной обработки данных, и я хочу использовать все 10 узлов для каждодневного пакетного процесса (только 2-часовой процесс), и как только сгенерированы точки данных отчетности, я хочу завершить работу 5узлы и делают только 5 узлов активными в остальное время дня для оптимизации затрат.

У меня коэффициент репликации 3.

В некоторых сценариях все 3 блока данных (фактические и блоки репликации) получилихранится в тех 5 узлах, которые я закрываю.Из-за этого я не могу правильно прочитать данные.

Могу ли я настроить некоторые параметры в менеджере Cloudera для сохранения конкретной базы данных или определенных таблиц в заданных узлах, чтобы у меня не возникало проблем при чтении данныхтолько 5 активных узлов.

Или любые другие предложения будут оценены.

1 Ответ

0 голосов
/ 05 июня 2018

Вы можете использовать информацию о стойках (виртуально), чтобы разделить кластер на 2 "стойки" и поместить 5 узлов, которые вы регулярно отключаете, в отдельную "стойку".Политика репликации потребует, чтобы NN размещал реплики на отдельных стойках, если они настроены.Опять же, я имею в виду стойки в виртуальном смысле здесь.Это должно дать вам то, что вы хотите.

...