Обнаружение изменений при сравнении документов в индексе в ElasticSearch - PullRequest
0 голосов
/ 25 сентября 2018

Я использую эластичный поиск для хранения данных сканирования сайта в одном индексе.Документы выглядят примерно так:

{"crawl_id": 1, url": "http://www.example.com", "status": 200}
{"crawl_id": 1, url": "http://www.example.com/test", "status": 200}
{"crawl_id": 2, url": "http://www.example.com", "status": 200}
{"crawl_id": 2, url": "http://www.example.com/test", "status": 500}

Как бы я сравнил 2 разных сканирования?Например, я хочу знать, какие страницы изменили свой код состояния с 200 на 500, в crawl_id 2, когда я сравниваю crawl_id 2 с crawl_id 1.

Я хотел бы получить список документов, но также и агрегироватьна тех результатах.Например, 1 страница изменилась с 200 на 500.

Есть идеи?

1 Ответ

0 голосов
/ 25 сентября 2018

Я бы использовал для этого родительские / дочерние документы .Родители, представляющие каждый URL, дети, представляющие каждое отдельное событие сканирования.Затем я выбрал бы родителей путем поиска детей (я игнорирую, если эта функция все еще поддерживается или если она изменила свое имя на типы данных объединения ).

Я бы также имелпосмотрите версии документа и посмотрите, какая из них лучше соответствует моим требованиям.

...