Я хочу сканировать веб-сайт с Nutch и индексировать его с помощью Solr.
У меня есть веб-сайт, имеющий следующую структуру:
Домашняя страница: example.com
Документы, которые я хочу проиндексировать: subdomain.example.com/{some_number}.html
Чтобы «обнаружить» все эти документы, я начинаю с example.com/discover
, в котором есть список многих документов, которые я хочу.
Итак, что у меня естьсейчас:
В моем regex-urlfilter.txt
я настроил сканирование только документов с example.com, и это прекрасно работает
Я индексирую с помощью Solr, и все работает хорошо.Я использую следующую команду:
./$nutch/bin/crawl -i -s $nutch/urls/ $nutch/ 5
Теперь мне нужно ТОЛЬКО индексировать документы в формате: subdomain.example.com/{some_number}.html
, игнорируя все остальное (т.е. я нехочу индексировать example.com/discover
)
Я полагаю, это делается путем изменения какой-либо конфигурации в Solr, поскольку это часть индексации.