Logstash RSS Feed (дедупликация и извлечение определенных данных) - PullRequest
0 голосов
/ 18 февраля 2019

Я пытаюсь получить информацию из RSS-канала.Я сталкиваюсь с 2 проблемами.

  1. Во-первых, я получаю дублирующиеся записи каждый раз, когда срабатывает интервал Logstash, в настоящее время он установлен на 5 минут.Каков наилучший способ справиться с этим?

  2. Во-вторых, я не уверен, что лучший способ получить определенные данные из каждой записи фида, поскольку мне не нужна вся информация.Я попытался протестировать Grok, но я не уверен, что это лучший вариант

Я включил пример записи из ленты ниже: https://www.virustotal.com/file/c84d547d76dcfce40ded583da665861a6fcdced426214dd78f6f62b07d7c4c5d/analysis/ c84d547d76dcfce40ded583da665861a6fcdced426214dd78f6f62b07d7c4c-18d-201-0215: 00: 52-EPZCHLTUWDGK-notification.subject пн, 18 февраля 2019 15:00:52 +0000 md5: b1d723b18e879b4f6d350995c4133890 sha1: 03ebe11cb413ca15022906844cdf628c708e666c sha256: 0b3a0f9282bbb91d5d7770ec4cf392bb0c69da9074ecba6b464ec1a3868ad840 размер: 1357312 Тип: Win32 EXE позитивы: 49 всего: 65 первая подача: 2019-02-18 14:53:18 последняя отправка: 2019-02-18 14:53:18 сканирование: набор данных правил: EPZCHLTUWDGK правило: соответствие zeus_v1: id: 5374337132199936

1 Ответ

0 голосов
/ 11 апреля 2019

Закончилось использование модуля JSON в python для решения этой проблемы.Также используется одно из полей в данных в качестве ключа для сравнения будущих элементов, которые поступают в канал, и, если ключ существует, все готовы его просто игнорировать.

...