правильно ли ограничивать очистку / tmp каждый день в кластере hadoop - PullRequest
0 голосов
/ 20 декабря 2018

У нас есть версия кластера HDP - 2.6.4

Кластер, установленный на компьютерах Redhat версии - 7.2

Мы заметили следующую проблему на компьютерах JournalNodes (главные машины)

У нас есть 3 машины с JournalNodes, а в папке / tmp у нас есть тысячи пустых папок как

drwx------.  2 hive      hadoop     6 Dec 20 09:00 a962c02e-4ed8-48a0-b4bb-79c76133c3ca_resources

, а также много папок как

drwxr-xr-x.  4 hive      hadoop  4096 Dec 12 09:02 hadoop-unjar6426565859280369566

с содержимым как

beeline-log4j.properties  BeeLine.properties  META-INF  org  sql-keywords.properties

/ tmp следует очищать каждые 10 дней в соответствии с файлом конфигурации:

more  /usr/lib/tmpfiles.d/tmp.conf
#  This file is part of systemd.
#
#  systemd is free software; you can redistribute it and/or modify it
#  under the terms of the GNU Lesser General Public License as published by
#  the Free Software Foundation; either version 2.1 of the License, or
#  (at your option) any later version.

# See tmpfiles.d(5) for details

# Clear tmp directories separately, to make them easier to override
v /tmp 1777 root root 10d
v /var/tmp 1777 root root 30d

# Exclude namespace mountpoints created with PrivateTmp=yes
x /tmp/systemd-private-%b-*
X /tmp/systemd-private-%b-*/tmp
x /var/tmp/systemd-private-%b-*
X /var/tmp/systemd-private-%b-*/tmp
You have new mail in /var/spool/mail/root

Таким образом, мы уменьшаем срок хранения до 1d вместо 10d во избежание этой проблемы

Тогда действительно / tmp имеют только содержимое папок одного дня

Но я хочу задать следующие вопросы

Можно ли настроить сохранение около / tmp в кластере Hadoop на 1 день?

(я почти уверен, что все в порядке, но хочу услышать больше мнений)

Второй

Почему HIVE генерирует тысячи пустых папок в виде XXXX_resources,

иможно ли решить его из службы HIVE, вместо этого ограничить срок хранения на / tmp

1 Ответ

0 голосов
/ 20 декабря 2018

Вполне нормально иметь тысячи папок в / tmp, если для нормального запуска остается свободное место.Многие процессы используют / tmp, включая Hive, Pig и т. Д. Однодневный срок хранения / tmp может быть слишком мал, потому что обычно задачи Hive или другие задачи сокращения карты могут выполняться более одного дня, хотя это зависит от ваших задач.HiveServer должен удалять временные файлы, но когда задачи не выполняются или прерываются, файлы могут остаться, также это зависит от версии Hive.Лучше настроить некоторую задержку, потому что, когда в / tmp не осталось места, все перестает работать.

Читайте также это Jira о сохранении нуля в HDFS.

...