Когда мы ищем результаты сканирования Stormcrawler в индексе Elasticsearch, люди неизбежно сравнивают результаты с Google, а результаты поиска неблагоприятно сравниваются с поиском Google по той же теме.Один из способов, с помощью которого Google помогает определить рейтинг различных страниц, - отслеживать внутренние ссылки на любую страницу.
Размышляя о результатах поиска на нашей странице и просматривая индекс состояния, я наткнулся на поле url.path.url.path содержит полный путь, который привел к текущей странице.
Возможно ли создать многозначное поле в индексе, который заполняется только последним URL из любого болта / функции, генерирующей URL.дорожка.Таким образом, поле будет представлять собой массив всех страниц, которые имеют прямую ссылку на текущий документ.
С помощью этой информации вы можете потенциально посчитать значения и получить представление об относительной популярности текущего документа по всем ссылкам на него.
Возможно ли что-то подобное в Stormcrawler?