Моя команда сталкивалась с подобными проблемами с высокой задержкой Namenode RPC в пиковое время ранее.Мы использовали многоуровневую архитектуру для решения проблем.Чтобы быть более конкретным, у нас есть большой, интенсивно используемый кластер Hadoop (десятки тысяч узлов), и вокруг него мы имеем меньшие вычислительные кластеры (около 1 тысячи узлов), работающие в Presto и других различных средах на Alluxio, которые служат в качестве уровня кэширования.в большой кластер HDFS.Таким образом, давление службы данных и метаданных будет значительно защищено развертыванием Alluxio.
Более подробно вы можете посмотреть на эту Strata Presentation .