Существует ли инструмент фильтрации командной строки для сжатия журналов с повторяющимися записями? - PullRequest
0 голосов
/ 28 мая 2018

Файлы журнала часто содержат повторяющиеся записи, особенно во встроенных приложениях.Они могут составлять подавляющее большинство потока или файла журнала.Формат временной последовательности приводит к большим файлам и затрудняет выявление выбросов и значимых изменений в течение более длительного периода времени.Не всегда имеет смысл передавать полноформатные журналы со встроенных устройств в облачные приложения для анализа.

Я ищу универсальный инструмент фильтрации командной строки или инструменты для сжатия текста журнала временной последовательности с помощьюудаляя только избыточные записи, которые могут принимать как потоковый, так и статический ввод файлов, и которые могут работать на встроенном устройстве Linux и ноутбуке.Я еще не нашел что-то подобное и хотел бы знать, существует ли оно.

Неповторяющийся контент только что пропущен.

Повторный контент сжат, так что большинство или все промежуточные экземплярымежду первым и последним экземпляром периодической последовательности исключаются.

Вместо избыточного вывода фильтр выдаст:

  • Первый экземпляр
  • (опционально) Дополнительные экземпляры, пока последовательность не будет квалифицирована как повторение
  • Обозначение, что контент начал повторяться
  • Последний экземпляр
  • Статистика за интервал времени (мин, макс, режим, стандартное отклонение)
  • Статистика по пропущенным записям(количество, процент)

Инструмент должен иметь несколько настраиваемых параметров, таких как:

  • Считывание метки времени из текста и использование системного времени ввода
  • Формат отметки времени
  • Максимальное время интервала для квалификации в качестве периодической последовательности
  • Максимальный абсолютный и / или относительный джиттер для квалификации в качестве периодической последовательности
  • Минимальное количество повторений для квалификации в качествепериодическая последовательность
  • Подавляются ли повторяющиеся записи или задерживаются, когда они еще не были квалифицированы как часть периодической последовательности
  • Ли и hМы часто сообщаем статистику во время продолжающейся последовательности
  • Максимальное количество пропущенных повторений перед отчетом в виде завершенной последовательности

Этот инструмент будет полезен для повторяющихся журналов и вывода текста, например из системного журнала., journalctl, candump, tcpdump и т. д.

Я начал работать над таким инструментом, но хотел бы знать, существует ли уже что-то, что я мог бы позаимствовать и внести свой вклад.При подготовке этого вопроса я просмотрел более 50 инструментов управления журналами и не нашел этой возможности. Навигатор лог-файлов выглядит наиболее полезным и может быть хорошей отправной точкой.

...