Каковы последствия отсутствия отслеживания url.path в StormCrawler? - PullRequest
0 голосов
/ 01 мая 2018

Мы используем StormCrawler и храним наш индекс Status вasticsearch. Этот индекс становится довольно большим (почти 3 миллиарда документов!), И поэтому сегменты также являются большими для резервного копирования и т. Д.

Я рассматриваю возможность удаления элемента массива метаданных url.path в документах. Похоже, Я могу отключить его с помощью metadata.track.path.

Каковы последствия, если я больше не буду индексировать это и удалять то, что имею?

1 Ответ

0 голосов
/ 02 мая 2018

Если вы не заинтересованы в отслеживании того, как был найден определенный URL, тогда да, вы сэкономите место (и немного времени), установив для metadata.track.path значение false. Вы можете сделать это прямо сейчас, и у любых новых документов не будет соответствующего поля.

Не уверен, что вы имеете в виду под «удалить то, что у меня есть» - вы не можете удалить только одно поле, вам придется удалить и переиндексировать все документы.

Как правило, убедитесь, что вы указали только те поля, которые вам нужны. См. эту настроенную версию сценария инициализации индекса ES , где имя хоста было перемещено из полей с префиксом метаданных для возможности поиска. Доступные параметры зависят от версии Elasticsearch, которую вы используете.

...