urch ореха не получен - PullRequest
       10

urch ореха не получен

0 голосов
/ 19 ноября 2018

Попытка сканировать некоторые URL-адреса с локального веб-сайта из этого домена:

https://foo.foofoo.com

Но я не могу сделать это для конкретных, подобных этим ниже. Потому что Nutch пропускает их, даже генерирует, чтобы их можно было получить. Но это не делает это:

https://foo.foofoo.com/foo/foo/foo/foo-a-foo-foofoo-foo-foo-foofoo-foo-foofoo
https://foo.foofoo.com/foo/00550000006yDdKAAU/foofoo/foo-foo-foo-foofoo-foo-foo
https://foo.foofoo.com/foo/foo/foo/foofoo-foo-foofoo-foo-foo/foofoo-a-foo-foofoo-foofoo?foo_id=foo-fi-and-foo-fafoo-fa

Только некоторые URL-адреса (не все! Только несколько!), Подобные этим, извлекаются:

https://foo.foofoo.com/en/foofoo

Вот мой файл regex-urlfilter, по которому я получаю только английские веб-страницы:

-^(file|ftp|mailto):
-^https?://foo.foofoo.com/(de|ja|fr|es-MX|pt-BR)
+^https?://foo.foofoo.com

Любая блестящая идея, пожалуйста?

1 Ответ

0 голосов
/ 19 ноября 2018

После удаления некоторых бесполезных плагинов для моего случая все вернулось на круги своя. Эти плагины являются точками расширения NUTCH , текст синтаксического анализа и запрос (базовый | сайт | URL) .

...