Попытка сканировать некоторые URL-адреса с локального веб-сайта из этого домена:
https://foo.foofoo.com
Но я не могу сделать это для конкретных, подобных этим ниже. Потому что Nutch пропускает их, даже генерирует, чтобы их можно было получить. Но это не делает это:
https://foo.foofoo.com/foo/foo/foo/foo-a-foo-foofoo-foo-foo-foofoo-foo-foofoo https://foo.foofoo.com/foo/00550000006yDdKAAU/foofoo/foo-foo-foo-foofoo-foo-foo https://foo.foofoo.com/foo/foo/foo/foofoo-foo-foofoo-foo-foo/foofoo-a-foo-foofoo-foofoo?foo_id=foo-fi-and-foo-fafoo-fa
Только некоторые URL-адреса (не все! Только несколько!), Подобные этим, извлекаются:
https://foo.foofoo.com/en/foofoo
Вот мой файл regex-urlfilter, по которому я получаю только английские веб-страницы:
-^(file|ftp|mailto): -^https?://foo.foofoo.com/(de|ja|fr|es-MX|pt-BR) +^https?://foo.foofoo.com
Любая блестящая идея, пожалуйста?
После удаления некоторых бесполезных плагинов для моего случая все вернулось на круги своя. Эти плагины являются точками расширения NUTCH , текст синтаксического анализа и запрос (базовый | сайт | URL) .