URL Apache Nutch в файле regex-urlfilter.txt - PullRequest
0 голосов
/ 07 октября 2019

Я новичок в ползании и особенно Apache Nutch. Конфигурация Apache Nutch действительно сложна. Я много исследовал через Apache Nutch и пришел к файлу regex-urlfilter.txt, где вы должны указать, какие страницы вы хотите сканировать и ограничить сканирование. Так как нет хорошего / простого учебника по этому поводу, поэтому я здесь. Объяснение вопроса приводится ниже.

Объяснение

Предположим, у меня есть веб-сайт с именем https://www.example.com. Теперь, чтобы сканировать только этот веб-сайт и ограничить мой просмотр, я знаю, что должен отредактировать свой файл regex-urlfilter.txt следующим образом +^https://www.example.com/ Что теперь, если я хочу ограничить это больше? Например, я хочу сканировать только некоторые страницы с данного веб-сайта.

https://www.example.com/something/details/1
https://www.example.com/something/details/2
https://www.example.com/something/details/3
https://www.example.com/something/details/4
https://www.example.com/something/details/5
.
.
.
https://www.example.com/something/details/10

PS: Как новый участник, я, возможно, допустил много ошибок, задав хороший вопрос. Пожалуйста, помогите мне улучшить вопрос, вместо того, чтобы давать -1. Я буду очень благодарен всем вам.

1 Ответ

0 голосов
/ 17 октября 2019

Если вы хотите сканировать только https://www.example.com/something/details/ и ниже, замените последнюю строку regex-urlfilter.txt с:

# accept anything else
+.

На:

+https://www.example.com/something/details/
-.

Это будет включатьтолько URL-адреса, содержащие https://www.example.com/something/details/ и игнорирующие все остальные URL-адреса.

...