Я установил таблицу управления Prometheus в кластер kubernetes для мониторинга. По умолчанию размер постоянного тома
- для сервера Prometheus определен как 8 Ги.
- Сервер Prometheus будет хранить метрики в этом томе в течение 15 дней (срок хранения)
После нескольких дней развертывания диаграммы модуль сервера Prometheus перешел в состояние аварийного отключения. Причина, найденная из журналов pod:
level=error ts=2019-10-09T11:03:10.802847347Z caller=main.go:625 err="opening storage failed: zero-pad torn page: write /data/wal/00000429: no space left on device"
Это означает, что на диске (постоянном томе) нет места для сохранения данных. Поэтому я очистил существующие данные тома и временно исправил проблему.
Каково было бы правильное решение для этого?
Документация Prometheus гласит:
Чтобы спланировать мощность сервера Prometheus, вы можете использовать приблизительную формулу:
needed_disk_space = retention_time_seconds * ingested_samples_per_second * bytes_per_sample
Может кто-нибудь объяснить, как использовать эту формулу намеренно?
Почему размера 8Gi недостаточно с 15-дневным сроком хранения?
РЕДАКТИРОВАТЬ:
Пространство 8Gi по умолчанию использовалось на 100% через 6 дней.