У меня есть 10 узлов кластера amazon ec2, используемых для каждодневной обработки данных, и я хочу использовать все 10 узлов для каждодневного пакетного процесса (только 2-часовой процесс), и как только сгенерированы точки данных отчетности, я хочу завершить работу 5узлы и делают только 5 узлов активными в остальное время дня для оптимизации затрат.
У меня коэффициент репликации 3.
В некоторых сценариях все 3 блока данных (фактические и блоки репликации) получилихранится в тех 5 узлах, которые я закрываю.Из-за этого я не могу правильно прочитать данные.
Могу ли я настроить некоторые параметры в менеджере Cloudera для сохранения конкретной базы данных или определенных таблиц в заданных узлах, чтобы у меня не возникало проблем при чтении данныхтолько 5 активных узлов.
Или любые другие предложения будут оценены.