у нас есть кластер hadoop с машинами датоданных
мы замечаем, что средняя загрузка процессора высока на машинах DATANODE
uptime
17:27:46 up 263 days, 3:39, 3 users, load average: 7.94, 6.66, 7.38
после короткой проверки мы заметили, что есть много файлов для удаления (из lsof)
пример
[root@DATANODE02 ~]# lsof +L1
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NLINK NODE NAME
avahi-dae 1938 avahi 5r REG 253,2 10406312 0 402658715 /var/lib/sss/mc/initgroups (deleted)
avahi-dae 1949 avahi 5r REG 253,2 10406312 0 402658715 /var/lib/sss/mc/initgroups (deleted)
sssd 1990 root 17r REG 253,2 10406312 0 402658715 /var/lib/sss/mc/initgroups (deleted)
sssd_be 1996 root 20r REG 253,2 10406312 0 402658715 /var/lib/sss/mc/initgroups (deleted)
cupsd 2269 root 10r REG 253,0 3024 0 139474724 /etc/passwd+ (deleted)
smcd 12588 root 15u REG 253,0 41590 0 13826415 /tmp/tmpfHHZRQO (deleted)
bluetooth 138025 root 9r FIFO 253,0 0t0 0 844091 /tmp/hogsuspend (deleted)
gnome-she 138037 root 20r REG 253,0 56 0 68959031 /root/.local/share/gvfs-metadata/home.55Q9UZ (deleted)
gnome-she 138037 root 24r REG 253,0 32768 0 70246314 /root/.local/share/gvfs-metadata/home-a9398246.log (deleted)
java 193699 yarn 1082r REG 8,16 293715 0 93588652 /grid/sdb/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir35/blk_1186014185 (deleted)
java 193699 yarn 1191r REG 8,80 292993 0 88474445 /grid/sdf/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir35/blk_1186014091 (deleted)
java 193699 yarn 1205r REG 8,16 2303 0 93588671 /grid/sdb/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir35/blk_1186014185_112276263.meta (deleted)
java 193699 yarn 1265r REG 8,32 23931 0 25962378 /grid/sdc/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir36/blk_1186014275 (deleted)
java 193699 yarn 1273r REG 8,32 195 0 25962397 /grid/sdc/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir36/blk_1186014275_112276353.meta (deleted)
java 193699 yarn 1307r REG 8,48 66713 0 61461179 /grid/sdd/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir36/blk_1186014410 (deleted)
java 193699 yarn 1385r REG 8,48 531 0 61461193 /grid/sdd/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir36/blk_1186014410_112276488.meta (deleted)
java 193699 yarn 1477r REG 8,80 2299 0 88474446 /grid/sdf/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir35/blk_1186014091_112276169.meta (deleted)
java 193699 yarn 1754r REG 8,16 91051 0 93696129 /grid/sdb/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir37/blk_1186014689 (deleted)
java 193699 yarn 1760r REG 8,16 719 0 93696130 /grid/sdb/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir37/blk_1186014689_112276769.meta (deleted)
java 193699 yarn 1972r REG 8,48 37960 0 61447490 /grid/sdd/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir39/blk_1186015148 (deleted)
java 193699 yarn 1976r REG 8,48 307 0 61447491 /grid/sdd/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir39/blk_1186015148_112277228.meta (deleted)
для печати только PID удаленного файла:
lsof +L1 | awk '{print $2}' | sort | uniq
12588
138025
138037
138151
138185
1938
1949
1990
1996
2269
поскольку все файлы, перечисленные выше, не существуют
в
/grid/sdd/hadoop/hdfs/data/current/BP-428352611-43.21.3.46-1502127526112/current/finalized/subdir15/subdir39/blk_1186015148_112277228.meta
мы убили всех ПИД
как
kill 12588
kill 138025
и т. Д.
и после того, как мы уничтожили все PID, средняя загрузка процессора снизилась как следующая
uptime
17:27:46 up 263 days, 3:39, 3 users, load average: 2.24, 4.61, 5.75
мой вопрос
что привело к удалению pId в файлах несмотря на то, что оно было удалено?
Можно ли убить PID с помощью
kill PID