Logstash + cloudwatch_logs: пропуск данных за месяцы при импорте - PullRequest
0 голосов
/ 12 апреля 2019

Я использую Logstash и плагин cloudwatch_logs для перемещения отфильтрованного подмножества событий из одного потока журнала CloudWatch с данными Open edX за год в ElasticSearch для анализа.

Естьвероятно, 200 тыс. + записей в потоке журналов, и около 30 тыс. или около того должны пройти через фильтр и в ES.Я использую целочисленное значение секунд для start_position с 1 марта 2018 года (35102038).

input {
   cloudwatch_logs {
        log_group => [ "/my/log/tracking" ]
        access_key_id => "(some key)"
        secret_access_key => "(some secret)"
        region => "us-west-1"
        codec => "json"
        start_position => 35102038
    }
}

Каждый день в журнале происходит не менее десяти или около того событий, которые должны пройти через фильтр.

Все работает нормально, вплоть до того, что кажется случайной точкой, где Logstash внезапнопереходит к будущей дате, пропуская месяц или два данных.

Я пытался удалить индекс, удалить .since_db и повторно запустить импорт, но каждый раз, когда плагин каким-то образом пропускает большой блок временигде-то (не в том же месте) между начальной позицией и текущим временем.

Я регистрирую время каждого события, которое прошло через фильтр, поэтому при последнем запуске я увидел что-то вроде:

(...lots of log messages ... )

Found PYSJ SP Event
Event time: 2019-02-14T19:21:40.749596+00:00

Found PYSJ SP Event
Event time: 2019-02-14T19:21:41.095490+00:00

Found PYSJ SP Event
Event time: 2019-04-11T04:59:57.224356+00:00

Found PYSJ SP Event
Event time: 2019-04-11T01:14:25.953122+00:00

(...lots of log messages ..)

Есть мысли о том, что может пойти не так?Спасибо.

...