Получение StormCrawler для получения дополнительного содержимого тела с веб-страницы и помещения его в Elasticsearch - PullRequest
0 голосов
/ 05 сентября 2018

У меня установлена ​​программа Proof of Concept Stormcrawler, указывающая на один из наших небольших университетских веб-сайтов (https://example.com - около 300 страниц), и у меня возникают проблемы с количеством информации, которую SC извлекает из содержимого тела. Этот сайт имеет тонну меню в верхней части страницы, и SC только проходит большую часть процесса извлечения содержимого меню, прежде чем оно отключается, и никогда не достигает реального содержимого страницы. Есть ли способ сказать SC, чтобы захватить больший объем содержимого тела со страницы? Или проблема на стороне Elasticsearch? В настоящее время я установил установку SC / ES так же, как и ту публикацию, которую вы опубликовали.

Спасибо! Jim

1 Ответ

0 голосов
/ 05 сентября 2018

Вероятно, из-за конфигурации http.content.limit , которая имеет значение 65 КБ в конфигурации , созданной артефактом .

Вы можете установить его на -1, чтобы сохранить весь контент.

Я заметил со страницы этого сайта, что основное содержание находится в элементе MAIN. Вы можете настроить ContentParseFilter так, чтобы он извлекал текст из этих элементов и использовал его в качестве текста документа, если он найден. Таким образом, вы не будете индексировать текст из шаблона в ES.

...