Я просканировал сайт через Apache Nutch. Я сделал этот процесс по порядку ввода, сегментации, выборки, разбора, updatedb. В каком каталоге извлечены данные? Когда меня искали во всех каталогах, таких как crawldb, сегменты, он показывался в нечитаемом формате. После поиска я дал команду дампа, так что я получаю в формате HTML. Это правильный способ извлечения данных?
Спасибо.