Сбой RabbitMQ из-за недостатка места на диске. Кто за это отвечает, системный инженер или разработчик? - PullRequest
0 голосов
/ 09 января 2019

Сегодня коллега, который является системным инженером, очень расстроился из-за сбоя службы RabbitMQ. Я предполагаю, что это потерпело крах, потому что было недостаточно места на диске.

Вот журнал аварий:

=ERROR REPORT====
** Generic server rabbit_mgmt_external_stats terminating 
** Last message in was emit_update
** When Server state == {state,8192,[{{io_file_handle_open_attempt,count},417},{{io_file_handle_open_attempt,time},46000},{{io_read,bytes},8007147},{{io_read,count},55},{{io_read,time},93000},{{io_reopen,count},0},{{io_seek,count},59},{{io_seek,time},16000},{{io_sync,count},78},{{io_sync,time},2234995},{{io_write,bytes},109786},{{io_write,count},78},{{io_write,time},1258997},{{mnesia_disk_tx,count},61},{{mnesia_ram_tx,count},683},{{msg_store_read,count},0},{{msg_store_write,count},0},{{queue_index_journal_write,count},91},{{queue_index_read,count},15},{{queue_index_write,count},21}],{set,0,16,16,8,80,48,{[],[],[],[],[],[],[],[],[],[],[],[],[],[],[],[]},{{[],[],[],[],[],[],[],[],[],[],[],[],[],[],[],[]}}},undefined,5000}
** Reason for termination == 
** {eacces,[{erlang,open_port,[{spawn,"C:\\Windows\\system32\\cmd.exe /c handle.exe /accepteula -s -p 3660 2> nul"},[binary,stderr_to_stdout,stream,in,hide]],[{file,"erlang.erl"},{line,2213}]},{os,cmd,2,[{file,"os.erl"},{line,275}]},{rabbit_mgmt_external_stats,get_used_fd,1,[{file,"src/rabbit_mgmt_external_stats.erl"},{line,137}]},{rabbit_mgmt_external_stats,get_used_fd,0,[{file,"src/rabbit_mgmt_external_stats.erl"},{line,65}]},{rabbit_mgmt_external_stats,'-infos/2-lc$^0/1-0-',2,[{file,"src/rabbit_mgmt_external_stats.erl"},{line,181}]},{rabbit_mgmt_external_stats,emit_update,1,[{file,"src/rabbit_mgmt_external_stats.erl"},{line,370}]},{rabbit_mgmt_external_stats,handle_info,2,[{file,"src/rabbit_mgmt_external_stats.erl"},{line,357}]},{gen_server,try_dispatch,4,[{file,"gen_server.erl"},{line,637}]}]}

Может ли кто-нибудь, кто является экспертом RabbitMQ, просветить меня, что означает вышеуказанный аварийный дамп? Я вижу много операций IO, и, поскольку жесткий диск почти заполнен, я полагаю, сбой был вызван из-за дискового пространства? Может кто-нибудь с большим знанием RabbitMQ подтвердить это, пожалуйста?

Другой вопрос, который у меня возникает: кто несет ответственность за обеспечение бесперебойной работы RabbitMQ (сценарии аварийного переключения, высокая доступность и другие вещи)? Разве это не должны быть темы для системного инженера?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...