Диски Datanode переполнены, потому что огромные файлы как стандартный вывод - PullRequest
0 голосов
/ 03 января 2019

у нас есть следующие версии кластера hadoop, (DATA-NODE машина находится на версии ОС Linux - 7.2)

ambari - 2.6.1 HDP - 2.6.4

мы видели несколько сценариев, когда диски на машине датодона переполняются на 100%

, и потому что файлы как - stdout имеют огромный размер

например,

/grid/sdb/hadoop/yarn/log/application_151746342014_5807/container_e37_151003535122014_5807_03_000001/stdout

из df -h, мы можем увидеть

df -h /grid/sdb
Filesystem      Size  Used Avail Use% Mounted on
/dev/sdb        1.8T  1.8T  0T   100% /grid/sdb

любое предложение, как избежать этой ситуации, когда стандартный вывод является огромным, и на самом деле эта проблема вызывает остановку компонента HDFS наdatanode,

секунда: поскольку ПУТЬ stdout равна:

/var/log/hadoop-yarn/containers/[application id]/[container id]/stdout

можно ли ограничить размер файла?или сделать очистку стандартного вывода, когда файл достиг порога?

1 Ответ

0 голосов
/ 03 января 2019

Если посмотреть по указанному выше пути, ваше приложение (Hadoop Job) записывает много данных в файл stdout. Обычно это происходит, когда задание записывает data в stdout с использованием функции System.out.println или аналогичной, которая не требуется, но иногда может использоваться для отладки кода.

Пожалуйста, проверьте код приложения и убедитесь, что он не записывает в stdout.

Надеюсь, это поможет.

...