Я новичок в ползании и особенно Apache Nutch. Конфигурация Apache Nutch действительно сложна. Я много исследовал через Apache Nutch и пришел к файлу regex-urlfilter.txt, где вы должны указать, какие страницы вы хотите сканировать и ограничить сканирование. Так как нет хорошего / простого учебника по этому поводу, поэтому я здесь. Объяснение вопроса приводится ниже.
Объяснение
Предположим, у меня есть веб-сайт с именем https://www.example.com
. Теперь, чтобы сканировать только этот веб-сайт и ограничить мой просмотр, я знаю, что должен отредактировать свой файл regex-urlfilter.txt следующим образом +^https://www.example.com/
Что теперь, если я хочу ограничить это больше? Например, я хочу сканировать только некоторые страницы с данного веб-сайта.
https://www.example.com/something/details/1
https://www.example.com/something/details/2
https://www.example.com/something/details/3
https://www.example.com/something/details/4
https://www.example.com/something/details/5
.
.
.
https://www.example.com/something/details/10
PS: Как новый участник, я, возможно, допустил много ошибок, задав хороший вопрос. Пожалуйста, помогите мне улучшить вопрос, вместо того, чтобы давать -1. Я буду очень благодарен всем вам.