Apache - случайное отключение - PullRequest
0 голосов
/ 26 июня 2018

Недавно я столкнулся с новыми проблемами с Apache.У нас есть приложение, написанное на Python (3.5) на Flask (1.0.2), работающее на

$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 16.04.2 LTS
Release:    16.04
Codename:   xenial

У нас есть два сервера позади ELB (AWS Elasict Loadbalancer), и они неожиданно (работают на этой конфигурации последние 3 месяца)) начал терпеть неудачу.Я обнаружил это с помощью сигналов тревоги от ELB и внешнего инструмента для мониторинга.Мы неожиданно начали получать E408 (Тайм-аут) и E503 (Служба недоступна).

Я начал копать, чтобы посмотреть, что может быть причиной, В журналах Apache я обнаружил много сообщений (кажется, незадолго до сбоя)) как этот:

[Mon Jun 25 22:27:04.613967 2018] [wsgi:error] [pid 1275:tid 139684390848256] (70008)Partial results are valid but processing is incomplete: [client 1.2.3.4:2819] mod_wsgi (pid=1275): Unable to get bucket brigade for request., referer: https://xx.xx.xx/

Я также запросил системный журнал и увидел этот:

Jun 25 22:13:25 my_hostname systemd[1]: Created slice User Slice of ubuntu.
Jun 25 22:13:25 my_hostname systemd[1]: Starting User Manager for UID 1000...
Jun 25 22:13:25 my_hostname systemd[1]: Started Session 1424 of user ubuntu.
Jun 25 22:13:25 my_hostname systemd[6239]: Reached target Sockets.
Jun 25 22:13:25 my_hostname systemd[6239]: Reached target Timers.
Jun 25 22:13:25 my_hostname systemd[6239]: Reached target Paths.
Jun 25 22:13:25 my_hostname systemd[6239]: Reached target Basic System.
Jun 25 22:13:25 my_hostname systemd[6239]: Reached target Default.
Jun 25 22:13:25 my_hostname systemd[6239]: Startup finished in 8ms.
Jun 25 22:13:25 my_hostname systemd[1]: Started User Manager for UID 1000.
Jun 25 22:14:47 my_hostname systemd[1]: Stopping LSB: Apache2 web server...
Jun 25 22:14:47 my_hostname apache2[6624]:  * Stopping Apache httpd web server apache2
Jun 25 22:14:59 my_hostname apache2[6624]:  *
Jun 25 22:14:59 my_hostname systemd[1]: Stopped LSB: Apache2 web server.
Jun 25 22:14:59 my_hostname systemd[1]: Starting LSB: Apache2 web server...
Jun 25 22:14:59 my_hostname apache2[6660]:  * Starting Apache httpd web server apache2
Jun 25 22:14:59 my_hostname apache2[6660]: AH00557: apache2: apr_sockaddr_info_get() failed for my_hostname
Jun 25 22:14:59 my_hostname apache2[6660]: AH00558: apache2: Could not reliably determine the server's fully qualified domain name, using 127.0.0.1. Set the 'ServerName' directive globally to suppress this message
Jun 25 22:15:00 my_hostname apache2[6660]:  *
Jun 25 22:15:00 my_hostname systemd[1]: Started LSB: Apache2 web server.

Интересно, что оба сервера (почти идентичные) вышли из строя одновременно (они были перезапущены)Примерно в то же время из-за развертывания новой версии трафик может быть примерно одинаковым для обоих, так как они находятся за одним балансировщиком нагрузки).

Уже пытались найти проблему с симилларом, но пока не повезло.

Еще одна интересная вещь, я нашел несколько сообщений, подобных этому, в журнале:

[Mon Jun 25 22:27:04.657763 2018] [wsgi:error] [pid 1274:tid 139684507617024] [remote 172.31.12.149:720] mod_wsgi (pid=1274): Exception occurred processing WSGI script '/home/ubuntu/my_app/app.wsgi'.
[Mon Jun 25 22:27:04.658503 2018] [wsgi:error] [pid 1274:tid 139684482414336] [remote 172.31.12.149:62417] mod_wsgi (pid=1274): Exception occurred processing WSGI script '/home/ubuntu/my_app/app.wsgi'.
[Mon Jun 25 22:27:04.658528 2018] [wsgi:error] [pid 1274:tid 139684532819712] [remote 172.31.12.149:52139] mod_wsgi (pid=1274): Exception occurred processing WSGI script '/home/ubuntu/my_app/app.wsgi'.
[Mon Jun 25 22:27:04.658584 2018] [wsgi:error] [pid 1274:tid 139684482414336] [remote 172.31.12.149:62417] OSError: failed to write data
[Mon Jun 25 22:27:04.658818 2018] [wsgi:error] [pid 1274:tid 139684516017920] [remote 172.31.12.149:208] OSError: failed to write data
[Mon Jun 25 22:27:04.659999 2018] [wsgi:error] [pid 1274:tid 139684532819712] [remote 172.31.12.149:52139] OSError: failed to write data
[Mon Jun 25 22:27:04.660411 2018] [wsgi:error] [pid 1274:tid 139684507617024] [remote 172.31.12.149:720] OSError: failed to write data

Не уверен, может ли это быть связано или нет, но я точно знаю, что мыотмена большого количества запросов до их завершения (по причине).

Кроме того, мы годами работаем на Ubuntu + Flask (и, скорее всего, на одной и той же установке), и у нас никогда не возникало подобных проблем.

Очень ценю любую идею, спасибо!

...