Я пытаюсь настроить Nutch в качестве сканера изображений и уже могу получить URL-адреса изображений после сканирования. Теперь я хочу получить начальный URL каждого URL изображения, как я могу это сделать? Спасибо!
Попробуйте сгенерировать linkdb (инвертированный индекс) из просканированных сегментов, и вы можете получить родителей URL.Если у URL есть один родительский элемент, он будет семенем этого URL. Читать this и this для получения справки по командам.