Было две проблемы.
1) Основная проблема, предложенная Томасом выше, заключалась в том, что ограничение на количество открытых файлов было установлено неправильно.
2) Вторичная проблема заключалась в обработке ошибоки отчетность.Это описано в базе данных ошибок hadoop Датодода помечена как мертвая, но процесс датодеты активен и проверяет блоки .
Когда поток, отправляющий тактовые импульсы наменоду, не прошел, он не восстановился должным образом.
a) Больше не было попыток сердцебиения, и это не привело к остановке всей датододы.b) Он сообщил об ошибке в stderr или stdout, который обычно идет в файл .out, а не через log4j, что происходит в обычном файле .log (и я забыл, что файл .out даже существует, поэтому я не проверялесть.)