Один из наших брокеров Kafka имел очень высокую среднюю нагрузку (в среднем около 8) на 8-ядерном компьютере. Хотя это должно быть хорошо, но наш кластер, похоже, все еще сталкивается с проблемами, и производители не могли сбрасывать сообщения в обычном темпе.
После дальнейшего изучения я обнаружил, что мой процесс Java слишком долго ждал ввода-вывода, почти 99,99% времени, и на данный момент я считаю, что это проблема.
Помните, что это происходило даже тогда, когда нагрузка была относительно низкой (около 100-150 Кбит / с), я видел, что она отлично работает даже при вводе данных в кластер со скоростью 2 Мбит / с.
Я не уверен, является ли эта проблема из-за Кафки, я предполагаю, что это не потому, что все другие брокеры работали хорошо в течение этого времени, и наши данные идеально разделены между 5 брокерами.
Пожалуйста, помогите мне найти причину проблемы. Куда мне обратиться, чтобы найти проблему? Существуют ли другие инструменты, которые могут помочь мне отладить эту проблему?
Мы используем установленный том EBS объемом 1 ТБ на большой машине m5.2x.
Пожалуйста, не стесняйтесь задавать любые вопросы.
GC Logs Снимок