Извлечение определенных тегов из документов HTML, полученных после сканирования и анализа, с использованием Apache Nutch 1.4 - PullRequest
0 голосов
/ 19 марта 2012

Я использовал Nutch 1.4 и сканировал веб-сайт.Я успешно просканировал сайт, и все страницы были разбиты на сегменты.Я объединил все сегменты в один сегмент, а затем использовал команду readseg, чтобы получить текстовую версию всех просканированных страниц.Теперь мне нужно выяснить, URL страницы и метаданные, хранящиеся на этой странице.Я не знаю, какую команду использовать, или мне нужно будет сделать что-то другое.

Я приложил много усилий в Google. Некоторые люди говорили, что для этого нужно написать отдельный плагин.Может кто-нибудь сказать мне, пожалуйста.

Спасибо большое :):)

Ответы [ 2 ]

0 голосов
/ 20 апреля 2012

сделать ползать.После этого введите это в терминал.

bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata

Если он запустится, у вас будет файл с информацией заголовка плюс содержимое в нем.После этого вы можете легко изменить файл и получить любую необходимую информацию с помощью строковых операций.

0 голосов
/ 21 марта 2012

Наконец я могу это сделать. Обмен на случай, если кому-то еще это нужно. Вы можете использовать плагин index-metatags, представленный здесь: http://wiki.apache.org/nutch/IndexMetatags

Это решит эту проблему Приветствия:)

...