Question

Я просканировал сайт через Apache Nutch. Я сделал этот процесс по порядку ввода, сегментации, выборки, разбора, updatedb. В каком каталоге извлечены данные? Когда меня искали во всех каталогах, таких как crawldb, сегменты, он показывался в нечитаемом формате. После поиска я дал команду дампа, так что я получаю в формате HTML. Это правильный способ извлечения данных? Спасибо.

Ravindu · Answer 1 · 30 мая 2018

Вы можете использовать Solr для индексации этих данных. Таким образом, вы можете фильтровать данные по запросам givin

http://lucene.apache.org/solr/

Где мы можем найти данные через веб-сканирование по Nchch после завершения сканирования?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Где мы можем найти данные через веб-сканирование по Nchch после завершения сканирования?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы