Проблемы с производительностью Hadoop из-за слишком большого количества узлов? - PullRequest
0 голосов
/ 24 апреля 2018

я слышал, что у hadoop могут возникнуть проблемы с производительностью, если вы выполняете широкие запросы, потому что может быть задействовано слишком много узлов?

Может ли кто-нибудь подтвердить или подделать это утверждение?

Спасибо! BR

1 Ответ

0 голосов
/ 25 апреля 2018

У namenode проблемы с производительностью, если вы добавляете слишком много файлов , так как он должен хранить все расположения файлов в памяти.Вы можете оптимизировать это, периодически создавая большие архивы.Например, ежедневные дампы базы данных становятся ежемесячными / годовыми сжатыми архивами, которые все еще находятся в обрабатываемом формате

Датоды данных HDFS являются просто файловой системой и масштабируются линейно.Добавление большего количества узлов NodeManager в целом не имеет негативных последствий, и, как сообщалось, YARN работает с 1000 узлами, я бы предложил использовать автономные кластеры, если вам действительно нужно больше.

Как и в любой распределенной системе, вам нужнооптимизировать коммутацию сети и мониторинг системы, но это проблемы с производительностью, не относящиеся к Hadoop

...