Неверно сформированный URL: '', пропуск (java.net.MalformedURLException - PullRequest
0 голосов
/ 16 декабря 2011

я ползаю сайты с орехом 1.3. я вижу это исключение в своем журнале, когда Nutch сканирует мои сайты:

Malformed URL: '', skipping (java.net.MalformedURLException: no protocol: 
at java.net.URL.<init>(URL.java:567)
at java.net.URL.<init>(URL.java:464)
at java.net.URL.<init>(URL.java:413)
at org.apache.nutch.crawl.Generator$Selector.reduce(Generator.java:247)
at org.apache.nutch.crawl.Generator$Selector.reduce(Generator.java:109)
at org.apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:463)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:216)

)

как я могу решить это? помоги мне.

Ответы [ 3 ]

2 голосов
/ 16 декабря 2011

Согласно документам. «Возникает MalformedURLException, чтобы указать, что произошел неправильный URL-адрес. Либо в строке спецификации не найден юридический протокол, либо строка не может быть проанализирована.»

Следует отметить, что это исключение не генерируется, когда сервер не работает или когда путь указывает на отсутствующий файл. Это происходит только тогда, когда URL не может быть проанализирован.

Ошибка указывает, что нет протокола . а также сканер не видит URL,

Неверный URL: '' , пропуск (java.net.MalformedURLException: нет протокола:

Вот интересная статья, с которой я столкнулся, посмотрите http://www.symphonious.net/2007/03/29/javaneturl-or-javaneturi/

Какой именно URL вы пытаетесь проанализировать?

1 голос
/ 17 марта 2013

После установки всех настроек с помощью regex-urlfilter.txt и seed.txt попробуйте эту команду:

./nutch plugin protocol-file org.apache.nutch.protocol.file.File file:\\\e:\\test.html

(если файл расположен в e:\test.htm в моем примере.

До этого я всегда запускал это

./nutch plugin protocol-file org.apache.nutch.protocol.file.File \\\e:\test.html

и получил эту ошибку, потому что протокол file: отсутствовал:

java.netMalformedURLException: нет протокола: \\ e: \ test.html

0 голосов
/ 17 марта 2013
Malformed URL: ''

означает, что URL был пустым, а не чем-то вроде http://www.google.com.

...