stormcrawler: indexer.md.mapping - что произойдет, если тег метаданных не существует? - PullRequest
0 голосов
/ 06 июня 2019

У нас была странная проблема с Stormcrawler 1.13. На некоторых (но не на всех) наших сайтах у нас есть тег <meta name="college" content="thiscollege"/>, а SC имеет indexer.md.mapping, установленный на - parse.college=college. Кажется, это работает правильно для сайтов, у которых установлен этот метатег.

Проблема, с которой мы сталкиваемся, заключается в том, что если для метаданных установлено значение thiscollege1 для страниц 3.html, 4.html и 5.html, то сканер переходит на страницу page25.html, в которой отсутствует метатег, он появляется , чтобы повторно использовать значение thiscollege1 для метатега из 5.html и просто вставить его в поле college в индексе Elastic.

Есть ли способ установить это так, чтобы он обнулял или сбрасывал эту переменную каждый раз, когда она переходит на новую страницу, чтобы переменная не переносилась?

Любой совет о том, как настроить этот параметр, был бы очень полезен!

Это была проблема с поиском, поскольку некоторые записи, кажется, содержат случайные записи. Только когда я сопоставил записи с некоторыми записями состояния, отсортированными по NextFetchDate, я увидел, что это может быть перенесенная переменная. Я собираюсь попытаться настроить конкретный тест всего за пару страниц, чтобы конкретно доказать / опровергнуть теорию, но сейчас это единственное, что соответствует происходящему.

Любые идеи приветствуются!

1 Ответ

1 голос
/ 06 июня 2019

Это должно произойти, только если вы указали parse.college в значениях для конфигурации metadata.transfer .

...