У нас была странная проблема с Stormcrawler 1.13. На некоторых (но не на всех) наших сайтах у нас есть тег <meta name="college" content="thiscollege"/>
, а SC имеет indexer.md.mapping
, установленный на - parse.college=college
. Кажется, это работает правильно для сайтов, у которых установлен этот метатег.
Проблема, с которой мы сталкиваемся, заключается в том, что если для метаданных установлено значение thiscollege1
для страниц 3.html, 4.html и 5.html, то сканер переходит на страницу page25.html, в которой отсутствует метатег, он появляется , чтобы повторно использовать значение thiscollege1
для метатега из 5.html и просто вставить его в поле college
в индексе Elastic.
Есть ли способ установить это так, чтобы он обнулял или сбрасывал эту переменную каждый раз, когда она переходит на новую страницу, чтобы переменная не переносилась?
Любой совет о том, как настроить этот параметр, был бы очень полезен!
Это была проблема с поиском, поскольку некоторые записи, кажется, содержат случайные записи. Только когда я сопоставил записи с некоторыми записями состояния, отсортированными по NextFetchDate, я увидел, что это может быть перенесенная переменная. Я собираюсь попытаться настроить конкретный тест всего за пару страниц, чтобы конкретно доказать / опровергнуть теорию, но сейчас это единственное, что соответствует происходящему.
Любые идеи приветствуются!