После запуска моего приложения некоторое время сервер linux внезапно перестает отвечать - PullRequest
0 голосов
/ 30 апреля 2020

enter image description here

На нашем GCP vm запущено приложение, через некоторое время сервер linux неожиданно перестает отвечать, что означает, что мы не можем sh в эту виртуальную машину, ни через последовательную консоль GCP.

Единственное исключение, которое мы обнаружили, это то, что чтение с диска очень высокое, но мы на 100% уверены, что приложение не читает диск (исключая определенный системный процесс). *

Итак, мы добавили в фоновый скрипт iotop для проверки и обнаружили, что даже tmux читает диск со скоростью 10MB/s, а ssh читает со 10MB/s ... это очень странно.

В нашем приложении может быть какая-то ошибка, но мы не можем отладить ее, поскольку система не отвечает, поэтому мы не можем войти в систему.

Мы боролись с этим в течение нескольких дней, и Понятия не имею, чтобы решить эту проблему.

Ребята, можете дать какой-нибудь совет? Почему процесс (может не иметь ошибок) приводит к тому, что вся система linux перестает работать? Почему процессы в системе (tmux, s sh, et c ...) становятся читающими диск на N MB/s ??

Есть ли другие способы, которые мы можем сделать для устранения этой проблемы ?

ОБНОВЛЕНИЕ

Мы не запускаем программу локально на компьютере разработчика, поскольку программе требуется 32 ГБ памяти, и у нас нет такого P C.

Мы сделали запустите программу через gdb, то же самое произойдет, чтение с большого диска, остановка системы.

Сервер имеет 64 ГБ памяти, и мы выделяем 32 ГБ памяти для нашего приложения.

Нет ничего подозрительного в / var / log / *

Сервер имеет 8 ядер, а наше приложение использует 6 ядер на 100%.

Спасибо

1 Ответ

0 голосов
/ 30 апреля 2020

Нам сложно догадаться, что происходит с информацией, которую вы предоставляете.

Некоторые квитанции:

  1. Откройте сеанс S SH до входа в систему. tra sh mode и пусть он отображает вывод top в командной строке, который показывает процессы, потребляющие ЦП или другие ресурсы.
  2. Просмотрите файлы журналов обычных подозрительных процессов.
  3. Дайте больше памяти вашей виртуальной машине.
  4. Подумайте больше ...

Надеясь, что это поможет ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...