Я использую Nutch 1.3 для сканирования сайта.Я хочу получить список просканированных URL-адресов и URL-адреса, исходящие со страницы.
Получен список просканированных URL-адресов с помощью команды readdb.
bin/nutch readdb crawl/crawldb -dump file
Есть ли способ узнать URLкоторые находятся на странице путем чтения crawldb или linkdb?
в массиве org.apache.nutch.parse.html.HtmlParser
Я вижу outlinks, мне интересно, есть ли быстрый способ доступа к нему из командной строки.