Question

Я использовал Nutch 1.4 и сканировал веб-сайт.Я успешно просканировал сайт, и все страницы были разбиты на сегменты.Я объединил все сегменты в один сегмент, а затем использовал команду readseg, чтобы получить текстовую версию всех просканированных страниц.Теперь мне нужно выяснить, URL страницы и метаданные, хранящиеся на этой странице.Я не знаю, какую команду использовать, или мне нужно будет сделать что-то другое.

Я приложил много усилий в Google. Некоторые люди говорили, что для этого нужно написать отдельный плагин.Может кто-нибудь сказать мне, пожалуйста.

Спасибо большое :):)

İsmet Alkan · Answer 1 · 20 апреля 2012

сделать ползать.После этого введите это в терминал.

bin/nutch readseg -dump crawl/segments/* output -nocontent -nofetch -nogenerate -noparse -noparsedata

Если он запустится, у вас будет файл с информацией заголовка плюс содержимое в нем.После этого вы можете легко изменить файл и получить любую необходимую информацию с помощью строковых операций.

Lina Clark · Answer 2 · 21 марта 2012

Наконец я могу это сделать. Обмен на случай, если кому-то еще это нужно. Вы можете использовать плагин index-metatags, представленный здесь: http://wiki.apache.org/nutch/IndexMetatags

Это решит эту проблему Приветствия:)

Извлечение определенных тегов из документов HTML, полученных после сканирования и анализа, с использованием Apache Nutch 1.4

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение определенных тегов из документов HTML, полученных после сканирования и анализа, с использованием Apache Nutch 1.4

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы