получить ссылки из Nutch - PullRequest
       27

получить ссылки из Nutch

10 голосов
/ 15 сентября 2011

Я использую Nutch 1.3 для сканирования сайта.Я хочу получить список просканированных URL-адресов и URL-адреса, исходящие со страницы.

Получен список просканированных URL-адресов с помощью команды readdb.

bin/nutch readdb crawl/crawldb -dump file

Есть ли способ узнать URLкоторые находятся на странице путем чтения crawldb или linkdb?

в массиве org.apache.nutch.parse.html.HtmlParser Я вижу outlinks, мне интересно, есть ли быстрый способ доступа к нему из командной строки.

Ответы [ 2 ]

8 голосов
/ 20 сентября 2011

Из командной строки вы можете увидеть исходящие ссылки, используя readseg с опцией -dump или -get.Например,

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump
2 голосов
/ 26 декабря 2013

Вы можете легко сделать это с помощью команды readlinkdb . Это дает вам все входящие и исходящие ссылки на URL-адрес.

bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)

linkdb: Это каталог linkdb, из которого мы хотим прочитать и получить информацию.

out_dir: этот параметр сбрасывает всю linkdb в текстовый файл в любом out_dir, который мы хотим указать.

url: аргумент -url предоставляет нам информацию о конкретном URL. Это записано в System.out.

e.g. 

bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1

Для получения дополнительной информации обратитесь к http://wiki.apache.org/nutch/bin/nutch%20readlinkdb

...