У namenode проблемы с производительностью, если вы добавляете слишком много файлов , так как он должен хранить все расположения файлов в памяти.Вы можете оптимизировать это, периодически создавая большие архивы.Например, ежедневные дампы базы данных становятся ежемесячными / годовыми сжатыми архивами, которые все еще находятся в обрабатываемом формате
Датоды данных HDFS являются просто файловой системой и масштабируются линейно.Добавление большего количества узлов NodeManager в целом не имеет негативных последствий, и, как сообщалось, YARN работает с 1000 узлами, я бы предложил использовать автономные кластеры, если вам действительно нужно больше.
Как и в любой распределенной системе, вам нужнооптимизировать коммутацию сети и мониторинг системы, но это проблемы с производительностью, не относящиеся к Hadoop