Мы начали использовать стороннюю платформу (GigaSpaces), которая помогает нам в распределенных вычислениях.Одна из основных проблем, которую мы пытаемся решить сейчас, - это управление файлами журналов в этой распределенной среде.В настоящее время мы имеем следующую настройку.
Наша платформа распределена по 8 машинам.На каждой машине у нас есть 12-15 процессов, которые регистрируют отдельные файлы журнала, используя java.util.logging.Помимо этой платформы у нас есть собственные приложения, которые используют log4j и log для разделения файлов.Мы также перенаправляем стандартный вывод в отдельный файл, чтобы перехватывать дампы потоков и тому подобное.
В результате получается около 200 различных файлов журнала.
На данный момент у нас нет инструментов, помогающих управлять этими файлами.В следующих случаях это вызывает у нас серьезные головные боли.
Устранение неполадок, когда мы заранее не знаем, в каком процессе возникла проблема.В этом случае мы в настоящее время подключаемся к каждой машине, используя ssh, и начинаем использовать grep
.
Пытаясь быть активными, регулярно проверяя журналы на наличие чего-то необычного.В этом случае мы также в настоящее время подключаемся ко всем машинам и просматриваем различные журналы, используя less
и tail
.
Настройка предупреждений.Мы рассчитываем настроить оповещения о событиях, превышающих порог.Это кажется трудной задачей, когда нужно проверить 200 файлов журналов.
Сегодня у нас только около 5 событий журнала в секунду, но это будет увеличиваться по мере того, как мы все больше и больше кода переносим вновая платформа.
Я хотел бы задать сообществу следующие вопросы.
- Как вы справлялись с подобными случаями, когда многие файлы журналов распределялись по нескольким компьютерам, зарегистрированным в разных средах?
- Почему вы выбрали именно это решение?
- Как сработали ваши решения?Что вы нашли хорошего и что вы нашли плохого?
Большое спасибо.
Обновление
Мы закончили оценку пробной версииСплунка.Мы очень довольны тем, как это работает, и решили приобрести его.Простота установки, быстрый поиск и множество функций для технически склонных.Я могу порекомендовать кого-нибудь в подобных ситуациях, чтобы проверить это.