работает над той же проблемой. Однако, кажется, что есть несколько утомительных шагов для достижения цели:
1-сканирование 2-index 3-получить необработанный html путем -readseg 4-проанализировать файл для получения необходимой информации
Итак, Nutch не кажется хорошим способом сделать это. Вам удалось найти ответ?