Я использую Logstash и плагин cloudwatch_logs для перемещения отфильтрованного подмножества событий из одного потока журнала CloudWatch с данными Open edX за год в ElasticSearch для анализа.
Естьвероятно, 200 тыс. + записей в потоке журналов, и около 30 тыс. или около того должны пройти через фильтр и в ES.Я использую целочисленное значение секунд для start_position с 1 марта 2018 года (35102038).
input {
cloudwatch_logs {
log_group => [ "/my/log/tracking" ]
access_key_id => "(some key)"
secret_access_key => "(some secret)"
region => "us-west-1"
codec => "json"
start_position => 35102038
}
}
Каждый день в журнале происходит не менее десяти или около того событий, которые должны пройти через фильтр.
Все работает нормально, вплоть до того, что кажется случайной точкой, где Logstash внезапнопереходит к будущей дате, пропуская месяц или два данных.
Я пытался удалить индекс, удалить .since_db и повторно запустить импорт, но каждый раз, когда плагин каким-то образом пропускает большой блок временигде-то (не в том же месте) между начальной позицией и текущим временем.
Я регистрирую время каждого события, которое прошло через фильтр, поэтому при последнем запуске я увидел что-то вроде:
(...lots of log messages ... )
Found PYSJ SP Event
Event time: 2019-02-14T19:21:40.749596+00:00
Found PYSJ SP Event
Event time: 2019-02-14T19:21:41.095490+00:00
Found PYSJ SP Event
Event time: 2019-04-11T04:59:57.224356+00:00
Found PYSJ SP Event
Event time: 2019-04-11T01:14:25.953122+00:00
(...lots of log messages ..)
Есть мысли о том, что может пойти не так?Спасибо.