Я использовал Nutch 1.4 и сканировал веб-сайт.Я успешно просканировал сайт, и все страницы были разбиты на сегменты.Я объединил все сегменты в один сегмент, а затем использовал команду readseg, чтобы получить текстовую версию всех просканированных страниц.Теперь мне нужно выяснить, URL страницы и метаданные, хранящиеся на этой странице.Я не знаю, какую команду использовать, или мне нужно будет сделать что-то другое.
Я приложил много усилий в Google. Некоторые люди говорили, что для этого нужно написать отдельный плагин.Может кто-нибудь сказать мне, пожалуйста.
Спасибо большое :):)