Nutch: получить URL-адрес каждого URL - PullRequest
0 голосов
/ 26 января 2012

Я пытаюсь настроить Nutch в качестве сканера изображений и уже могу получить URL-адреса изображений после сканирования. Теперь я хочу получить начальный URL каждого URL изображения, как я могу это сделать? Спасибо!

1 Ответ

0 голосов
/ 03 апреля 2012

Попробуйте сгенерировать linkdb (инвертированный индекс) из просканированных сегментов, и вы можете получить родителей URL.Если у URL есть один родительский элемент, он будет семенем этого URL.
Читать this и this для получения справки по командам.

...