Где мы можем найти данные через веб-сканирование по Nchch после завершения сканирования? - PullRequest
0 голосов
/ 29 апреля 2018

Я просканировал сайт через Apache Nutch. Я сделал этот процесс по порядку ввода, сегментации, выборки, разбора, updatedb. В каком каталоге извлечены данные? Когда меня искали во всех каталогах, таких как crawldb, сегменты, он показывался в нечитаемом формате. После поиска я дал команду дампа, так что я получаю в формате HTML. Это правильный способ извлечения данных? Спасибо.

1 Ответ

0 голосов
/ 30 мая 2018

Вы можете использовать Solr для индексации этих данных. Таким образом, вы можете фильтровать данные по запросам givin

http://lucene.apache.org/solr/
...