Stormcrawler / Elasticsearch и отслеживание входящих ссылок на страницу - PullRequest
0 голосов
/ 22 марта 2019

Когда мы ищем результаты сканирования Stormcrawler в индексе Elasticsearch, люди неизбежно сравнивают результаты с Google, а результаты поиска неблагоприятно сравниваются с поиском Google по той же теме.Один из способов, с помощью которого Google помогает определить рейтинг различных страниц, - отслеживать внутренние ссылки на любую страницу.

Размышляя о результатах поиска на нашей странице и просматривая индекс состояния, я наткнулся на поле url.path.url.path содержит полный путь, который привел к текущей странице.

Возможно ли создать многозначное поле в индексе, который заполняется только последним URL из любого болта / функции, генерирующей URL.дорожка.Таким образом, поле будет представлять собой массив всех страниц, которые имеют прямую ссылку на текущий документ.

С помощью этой информации вы можете потенциально посчитать значения и получить представление об относительной популярности текущего документа по всем ссылкам на него.

Возможно ли что-то подобное в Stormcrawler?

1 Ответ

0 голосов
/ 23 марта 2019

Это было бы возможно с некоторыми модификациями кода. По умолчанию мы храним информацию об обнаруженном URL-адресе, включая путь, который привел к нему, только для первого обнаруженного экземпляра этого URL-адреса. Это может быть сделано разными способами, например, с помощью специального болта, накапливающего ссылки в Redis или Graph DB.

Ваш основной вопрос касается настройки релевантности с Elasticsearch. Конечно, это зависит от того, какие поля отправляет сканер, но не только. Я знаю некоторых пользователей StormCrawler, которые с большим успехом использовали его вместе с ES в качестве замены Google Search Appliance. Информация о ссылках может помочь, но без нее вы сможете получить приличные результаты.

...